DSGVO in Deutschland: Die Herausforderungen des deutschen Datenschutzes

Apr 24, 2023
Share this post
Sharing to FacebookSharing to LinkedInSharing to XSharing to Email

Mit mehr als 100 Millionen deutschsprachigen Menschen weltweit gibt es viele Anwendungsfälle für die Entfernung personenbezogener Daten aus deutschen Texten, einschließlich der Einhaltung der Datenschutzgrundverordnung (DSGVO) in Deutschland und anderswo. Da es viele datenschutzfreundliche De-Identifizierungslösungen gibt, die für die englische Sprache optimiert sind, könnte man annehmen, dass es einfach wäre, dieselben Ansätze auf den nahen sprachlichen Verwandten, das Deutsche, zu übertragen. In Wirklichkeit bringt die Entfernung von personenbezogenen Daten im Deutschen jedoch ganz eigene Probleme mit sich, die wiederum die Einhaltung der DSGVO erschweren, wenn die betreffenden Daten auf Deutsch sind. Lesen Sie weiter, um zu erfahren, warum die De-Identifizierung personenbezogener Daten auf Deutsch schwieriger ist, als Sie vielleicht vermutet haben, und wie sich dies auf die Einhaltung der DSGVO auswirken kann.

Komposita

Eines der hervorstechendsten grammatikalischen Merkmale des Deutschen ist vielleicht das, was Linguisten als Komposita bezeichnen: Wörter, die aus mehreren kürzeren Stamm-Morphemen oder Wortteilen zusammengesetzt sind, die jeweils für sich allein eine Bedeutung haben. Zusammensetzungen gibt es auch im Englischen: Wörter wie sunflower (sun + flower) oder notebook (note + book). Im Deutschen sind Zusammensetzungen häufiger und können die Länge von etwas haben, das im Englischen einem halben Satz entspricht - zum Beispiel Datenschutzgrundverordnung, auf English General Data Protection Regulation:Die Häufigkeit und das Ausmaß von Zusammensetzungen im Deutschen stellen ein Problem für transformatorbasierte Ansätze dar, die für die Verwendung von Leerzeichen zur Erkennung der Wortgrenzen optimiert sind. Wie kann ein AI-Modell ein Wort erkennen, das in einem anderen Wort „versteckt“ ist? Betrachten wir die folgenden deutschen Verbindungen:– gesamtschweizerischenenglischsprachig– ProfessorengehaltJedes Beispiel enthält sowohl quasi-identifizierbare Informationen als auch allgemeines Material. Ein solides System zur Entfernung personenbezogener Daten muss in der Lage sein, zu unterscheiden, welche Informationen identifizierende Charakteristiken haben, und nur die identifizierenden Elemente zu entfernen, um die DSGVO und die deutschen Datenschutzbestimmungen einzuhalten und gleichzeitig eine lesbare und nützliche Entfernungsausgabe zu erzeugen.

Beugung und Ableitung

Neben der umfangreichen Verwendung komplexer Wortbildung durch Komposita verfügt die deutsche Sprache über ein reichhaltiges und komplexes morphologisches System, das seit langem als Hindernis für herkömmliche Systeme zur Erkennung benannter Entitäten (Named Entity Recognition - NER) gilt, die für den Datenschutz in Deutschland, einschließlich der Einhaltung der DSGVO, unerlässlich sind.Es wurde zum Beispiel festgestellt, dass eine große Herausforderung für die NER-Erkennung und damit für die Bemühungen um den Datenschutz in Deutschland die Allgegenwart von morphologisch abgeleiteten Wörtern im Deutschen ist. Bei der Ableitung handelt es sich um einen Wortbildungsprozess, bei dem die Wortart eines Grundworts durch das Hinzufügen von Affixen oder Wortteilen, die an Stammmorpheme angehängt werden, verändert wird. Ein Beispiel für ein auf diese Weise abgeleitetes deutsches Wort ist lutherisch, das sich aus dem Eigennamen [Martin] Luther mit dem angefügten Suffix -ischen zusammensetzt (Klimek et al. 2017). Die Schwierigkeit bei der Entitätserkennung wird noch deutlicher im Fall der sogenannten Null-Ableitung, bei der ein und dasselbe Wort zu verschiedenen Wortarten gehören und mehrere Bedeutungen haben kann, ohne dass sich die Oberflächenform ändert. So kann beispielsweise das Wort Birnbaum entweder ein allgemeines Substantiv sein oder der Nachname einer Person. Wenn ein NER-System auf eine Zeichenkette wie Birnbaum stößt, muss es in der Lage sein, aus dem umgebenden sprachlichen Kontext zu schließen, dass es sich nur bei letzterem um personenbezogene Daten handelt, andernfalls wird es die DSGVO in Deutschland nicht einzuhalten helfen vermögen. Eine Studie stellt fest, dass drei von vier NER-Systemen nicht in der Lage waren, zwischen solchen Homonymen „mit einem ungeraden Verhältnis von bis zu 13,7“ zu unterscheiden (Helmers 2013, frei übersetzt).Eine weitere Herausforderung für die Erkennung personenbezogener Daten auf Deutsch und damit für die Einhaltung der DSGVO, wenn es sich um deutsche Daten handelt, ist die umfangreiche Flexionsmorphologie der Sprache, durch die Wortteile einem Wort grammatische Bedeutung verleihen. Dieses System, das sich ausschließlich auf Substantive bezieht, umfasst bekanntlich vier Fälle (Nominativ, Akkusativ, Dativ, Genitiv), die die syntaktische Funktion eines Substantivs in einem Satz angeben, drei grammatische Geschlechter (Femininum, Maskulinum, Neutrum), die sich von dem unterscheiden, was man als soziales Geschlecht versteht, und eine zweiseitige Zahlenunterscheidung (Singular, Plural). Zusammengenommen bedeutet dies, dass ein bestimmtes Substantiv mehrere verschiedene Formen annehmen kann, je nach seiner syntaktischen Position im Satz und der Entität(en), auf die sich der Begriff bezieht. Diese Formenvielfalt macht eine RegEx-basierte Lösung sowohl unpraktisch als auch unzureichend, stellt aber selbst für AI-Systeme eine Herausforderung dar.Unabhängig davon, ob ein Wort durch Ableitung, Flexion oder beides gebildet wurde, liegt die Annahme nahe, dass die NER-Erkennung umso schwieriger wird, je komplexer ein Wort ist. Diese Annahme hat empirische Unterstützung in Studien wie der von Klimek et al. (2017) gefunden, die herausfanden, dass Entitäten, die vom NER-System übersehen wurden (falsche negative), mit 8-fach höherer Wahrscheinlichkeit morphologisch komplex waren als korrekt erkannte und entfernte Entitäten (echte positive).Erschwerend kommt hinzu, dass die Flexionsmorphologie deutscher Substantive nicht nur auf Substantive beschränkt ist, sondern natürlich auch andere Wörter innerhalb einer Substantivphrase, wie Adjektive und Artikel, betrifft. Insbesondere die geschlechtsspezifischen Merkmale dieser Wörter können Informationen über eine Person preisgeben, wenn sie nicht entfernt oder anderweitig neutralisiert werden. Dies ist im Englischen anders, wie die folgenden Beispiele zeigen. Es variieren die deutschen Artikel und Adjektive im Gegensatz zum Englischen und passen sich dem Geschlecht des folgenden Substantivs an. Unter bestimmten Umständen könnten diese Informationen gemäß der DSGVO als personenbezogene Daten betrachtet werden, wenn sie auf Deutsch geschrieben werden, während sie im Englischen geschlechtsneutral sind.The doctor saw the young woman.Der Doktor sahdiejungeFrau. The doctor saw the young man.Der Doktor sahdenjungenMann.

Rechtschreibung

Ein weiterer Faktor, der beim Umgang mit dem deutschen Datenschutz in Textform Probleme bereitet, ist die Orthographie, d. h. die akzeptierten Konventionen in Bezug auf Buchstaben und Rechtschreibung.Im Englischen ist die Großschreibung, abgesehen von Satzanfängen, meist auf Eigennamen (d. h. Substantive, die spezifisch und nicht allgemein sind) beschränkt. Die Großschreibung ist daher ein nützlicher Anhaltspunkt, wenn es darum geht, benannte Entitäten im Englischen zu identifizieren. Im Gegensatz dazu werden im Deutschen bekanntermaßen alle Substantive großgeschrieben, unabhängig davon, ob es sich um Eigennamen oder Gattungsnamen handelt. Wenn beispielsweise sowohl „die Türkei“ als auch „der Löffel“ großgeschrieben werden, ist die Großschreibung kein so nützlicher Anhaltspunkt, um festzustellen, welcher Begriff sich auf eine benannte Entität bezieht.Eine weitere deutsche Besonderheit, die englische NER-Systeme nicht kennen, ist die Verwendung der vier „Sonderzeichen“ zusätzlich zu den 26 „Grundbuchstaben“ des lateinischen Alphabets, nämlich, ä, ö, ü und das ß. Wenn man mit einem eingeschränkten Zeichensatz tippt, gibt es alternative Schreibweisen für diese Zeichen (ae, oe, ue und ss) die mitunter verwendet werden. Selbst wenn man den vollen Zeichensatz zur Verfügung hat, hängt es oft von dem Dialekt und dem individuellen Verfasser ab, ob ein Wort mit „ß“ oder „ss“ geschrieben wird, um die Sache noch ein wenig interessanter zu machen.Auch haben sich die deutschen Rechtschreibregeln im Laufe der Zeit geändert. Die Regierungen mehrerer deutschsprachiger europäischer Länder einigten sich 1996 auf eine Reihe von Rechtschreibreformen. Man mag sich erinnern, dass das, was folgte, ein Jahrzehnt voller Kontroversen, Kompromisse und sogar rechtlicher Anfechtungen war. Auch wenn sich die Lage inzwischen weitgehend beruhigt hat, bedeutet dies immer noch, dass die Schreibweise desselben Wortes in vielen Fällen je nach Jahr (oder Ort) der Niederschrift in verschiedenen Datensätzen variieren kann. Diese orthografischen Unterschiede machen ein NER-System noch komplexer. Unterschiede in der Rechtschreibung, die einem menschlichen Leser unbedeutend erscheinen, können dazu führen, dass Wörter von einem NER-Tokenizer ganz anders aufgespalten werden. Die folgende Tabelle zeigt drei Beispiele, bei denen alternative Schreibweisen zu einer unterschiedlichen Tokenisierung der Wörter führen. Old German spelling New German spellingSchiffahrtskapitän‘sea-faring captain’['Schiff', '##ahrt', '##skap', '##itä', '##n']Schifffahrtskapitän‘sea-faring captain’['Schiff', '##fahrts', '##kapit', '##än']Ballettänzer‘ballet dancer’['Ballett', '##än', '##zer']Balletttänzer‘ballet dancer’['Ballett', '##tä', '##n', '##zer']Streßtherapie‘stress therapy’[Stre', '##ßt', '##herapie']Stresstherapie‘stress therapy’['Stress', '##ther', '##apie']An dieser Stelle kann Technologie helfen. Wie wir jedoch oben erläutert haben, stellt die deutsche Sprache eine Herausforderung selbst für leistungsstarke Tools, die auf maschinellem Lernen basieren, dar. Wenn Sie den Erwerb einer Technologie zur Unterstützung der Identifizierung und Entfernung von personenbezogenen Daten in Erwägung ziehen, müssen Sie daher darauf achten, ob diese für die Sprachen, die in Ihrem Datensatz vorkommen, optimiert wurde. Wenn Sie hingegen selbst eine Lösung entwickeln möchten, sollten Sie die Liste der Schwierigkeiten, die Sie bei der Erzielung einer hohen Genauigkeit bei der Identifizierung von personenbezogenen Daten erwarten, um die sprachlichen Fallstricke ergänzen.Private AI verfügt über das nötige interne Know-how, um unsere Datenmodule in vielen verschiedenen Sprachen zu trainieren. Bislang sind es 49 und weitere werden stets hinzugefügt. Um die Technologie in Aktion zu sehen, probieren Sie unsere Web-Demo aus oder fordern Sie einen API-Schlüssel an, um sie mit Ihren eigenen Daten zu testen.

Data Left Behind: AI Scribes’ Promises in Healthcare

Data Left Behind: Healthcare’s Untapped Goldmine

The Future of Health Data: How New Tech is Changing the Game

Why is linguistics essential when dealing with healthcare data?

Why Health Data Strategies Fail Before They Start

Private AI to Redefine Enterprise Data Privacy and Compliance with NVIDIA

EDPB’s Pseudonymization Guideline and the Challenge of Unstructured Data

HHS’ proposed HIPAA Amendment to Strengthen Cybersecurity in Healthcare and how Private AI can Support Compliance

Japan's Health Data Anonymization Act: Enabling Large-Scale Health Research

What the International AI Safety Report 2025 has to say about Privacy Risks from General Purpose AI

Private AI 4.0: Your Data’s Potential, Protected and Unlocked

How Private AI Facilitates GDPR Compliance for AI Models: Insights from the EDPB's Latest Opinion

Navigating the New Frontier of Data Privacy: Protecting Confidential Company Information in the Age of AI

Belgium’s Data Protection Authority on the Interplay of the EU AI Act and the GDPR

Enhancing Compliance with US Privacy Regulations for the Insurance Industry Using Private AI

Navigating Compliance with Quebec’s Act Respecting Health and Social Services Information Through Private AI’s De-identification Technology

Unlocking New Levels of Accuracy in Privacy-Preserving AI with Co-Reference Resolution

Strengthened Data Protection Enforcement on the Horizon in Japan

How Private AI Can Help to Comply with Thailand's PDPA

How Private AI Can Help Financial Institutions Comply with OSFI Guidelines

The American Privacy Rights Act – The Next Generation of Privacy Laws

How Private AI Can Help with Compliance under China’s Personal Information Protection Law (PIPL)

PII Redaction for Reviews Data: Ensuring Privacy Compliance when Using Review APIs

Independent Review Certifies Private AI’s PII Identification Model as Secure and Reliable

To Use or Not to Use AI: A Delicate Balance Between Productivity and Privacy

To Use or Not to Use AI: A Delicate Balance Between Productivity and Privacy

News from NIST: Dioptra, AI Risk Management Framework (AI RMF) Generative AI Profile, and How PII Identification and Redaction can Support Suggested Best Practices

Handling Personal Information by Financial Institutions in Japan – The Strict Requirements of the FSA Guidelines

日本における金融機関の個人情報の取り扱い - 金融庁ガイドラインの要件

Leveraging Private AI to Meet the EDPB’s AI Audit Checklist for GDPR-Compliant AI Systems

Who is Responsible for Protecting PII?

How Private AI can help the Public Sector to Comply with the Strengthening Cyber Security and Building Trust in the Public Sector Act, 2024

A Comparison of the Approaches to Generative AI in Japan and China

Updated OECD AI Principles to keep up with novel and increased risks from general purpose and generative AI

Is Consent Required for Processing Personal Data via LLMs?

The evolving landscape of data privacy legislation in healthcare in Germany

The CIO’s and CISO’s Guide for Proactive Reporting and DLP with Private AI and Elastic

The Evolving Landscape of Health Data Protection Laws in the United States

Comparing Privacy and Safety Concerns Around Llama 2, GPT4, and Gemini

How to Safely Redact PII from Segment Events using Destination Insert Functions and Private AI API

WHO’s AI Ethics and Governance Guidance for Large Multi-Modal Models operating in the Health Sector – Data Protection Considerations

How to Protect Confidential Corporate Information in the ChatGPT Era

Unlocking the Power of Retrieval Augmented Generation with Added Privacy: A Comprehensive Guide

Leveraging ChatGPT and other AI Tools for Legal Services

Leveraging ChatGPT and other AI tools for HR

Leveraging ChatGPT in the Banking Industry

Law 25 and Data Transfers Outside of Quebec

The Colorado and Connecticut Data Privacy Acts

Unlocking Compliance with the Japanese Data Privacy Act (APPI) using Private AI

Tokenization and Its Benefits for Data Protection

Private AI Launches Cloud API to Streamline Data Privacy

Processing of Special Categories of Data in Germany

End-to-end Privacy Management

Privacy Breach Reporting Requirements under Law25

Migrating Your Privacy Workflows from Amazon Comprehend to Private AI

A Comparison of the Approaches to Generative AI in the US and EU

Benefits of AI in Healthcare and Data Sources (Part 1)

Privacy Attacks against Data and AI Models (Part 3)

Risks of Noncompliance and Challenges around Privacy-Preserving Techniques (Part 2)

Enhancing Data Lake Security: A Guide to PII Scanning in S3 buckets

The Costs of a Data Breach in the Healthcare Sector and its Privacy Compliance Implications

Navigating GDPR Compliance in the Life Cycle of LLM-Based Solutions

What’s New in Version 3.8

How to Protect Your Business from Data Leaks: Lessons from Toyota and the Department of Home Affairs

New York's Acceptable Use of AI Policy: A Focus on Privacy Obligations

Safeguarding Personal Data in Sentiment Analysis: A Guide to PII Anonymization

Changes to South Korea’s Personal Information Protection Act to Take Effect on March 15, 2024

Australia’s Plan to Regulate High-Risk AI

How Private AI can help comply with the EU AI Act

Comment la Loi 25 Impacte l'Utilisation de ChatGPT et de l'IA en Général

Endgültiger Entwurf des Gesetzes über Künstliche Intelligenz – Datenschutzpflichten der KI-Modelle mit Allgemeinem Verwendungszweck

How Law25 Impacts the Use of ChatGPT and AI in General

Is Salesforce Law25 Compliant?

Creating De-Identified Embeddings

Exciting Updates in 3.7

EU AI Act Final Draft – Obligations of General-Purpose AI Systems relating to Data Privacy

FTC Privacy Enforcement Actions Against AI Companies

The CCPA, CPRA, and California's Evolving Data Protection Landscape

HIPAA Compliance – Expert Determination Aided by Private AI

Private AI Software As a Service Agreement

EU's Review of Canada's Data Protection Adequacy: Implications for Ongoing Privacy Reform

Acceptable Use Policy

ISO/IEC 42001: A New Standard for Ethical and Responsible AI Management

Reviewing OpenAI's 31st Jan 2024 Privacy and Business Terms Updates

Comparing OpenAI vs. Azure OpenAI Services

Quebec’s Draft Regulation Respecting the Anonymization of Personal Information

Version 3.6 Release: Enhanced Streaming, Auto Model Selection, and More in Our Data Privacy Platform

Brazil's LGPD: Anonymization, Pseudonymization, and Access Requests

LGPD do Brasil: Anonimização, Pseudonimização e Solicitações de Acesso à Informação

Canada’s Principles for Responsible, Trustworthy and Privacy-Protective Generative AI Technologies and How to Comply Using Private AI

Private AI Named One of The Most Innovative RegTech Companies by RegTech100

Data Integrity, Data Security, and the New NIST Cybersecurity Framework

Safeguarding Privacy with Commercial LLMs

Cybersecurity in the Public Sector: Protecting Vital Services

Privacy Impact Assessment (PIA) Requirements under Law25

Elevate Your Experience with Version 3.5

Fine-Tuning LLMs with a Focus on Privacy

GDPR in Germany: Challenges of German Data Privacy (Part 2)

Comply with US Executive Order on Safe, Secure, and Trustworthy Artificial Intelligence using Private AI

How to Comply with EU AI Act using PrivateGPT