Sidebar

IDEA-Hilfe.de
  • Suche
  • Newsfeeds
    • Newsletter
  • Home
  • Steuer-News
    • allgemeine Steuer-News
    • GOBD
    • IDEA
    • Kasse
    • SRP - Summarische Risikoprüfung
    • BFH-Entscheidungen
    • FG-Entscheidungen
    • E-Rechnungen
    • Umsatzsteuer
  • Webverzeichnis
    • Steuerrecht
      • BFH-Urteile
      • FG-Urteile
      • Steuerbehörden
      • Finanzämter
      • Formulare / Vordrucke
      • Steuersoftware
      • IDEA
      • Steuerkanzleien
      • Zeitschriften
      • Allgemeine Steuerlinks
      • E-Rechnungen-Links
      • Kassenlinks
      • Webinare
      • Umsatzsteuer
      • Gesetze
      • Verwaltungsschreiben
      • Open Data Links
    • Handelsrecht
    • Strafrecht
    • Steuerrecht Ausland
      • Österreich
      • Schweiz
      • USA
    • Google-Suchhilfe
    • Tools for Data Science
  • Datenanalyse
    • IDEA
    • Microsoft Power BI
    • Netzwerkanalyse
    • Python
    • Open_Data
    • Machine_Learning
  • KI-Tools
    • KI-Tools Text zu Text
    • KI-Tools Text zu Bild
    • KI-Tools Text zu Sprache
    • KI-Tools Text zu Audio
    • KI-Tools Text zu Video
    • KI-Erkenner
    • KI-Tools-Sammlung
    • KI-Suchmaschinen
    • KI-PROMT-Sammlung
    • KI-PROMPT-Management
    • KI-Offline-Tools
    • KI-Spass
  • Chatbot

Home

RAG komplett im Browser: Lokale Dokumente durchsuchen, chatten und Quellen sauber belegen (PDF-Seiten + Zeilen n–m)

Details
Super User
Natural Language Processing (NLP)
21. Februar 2026
Zugriffe: 20

Viele „KI-Chats“ wirken beeindruckend – solange sie nur allgemeines Wissen wiedergeben. In der Praxis (Audit, Compliance, Fachabteilungen) zählt aber etwas anderes: Antworten müssen aus konkreten Dokumenten stammen und nachvollziehbar belegt sein. Genau dafür eignet sich RAG (Retrieval-Augmented Generation): Erst werden passende Textstellen aus deinen Unterlagen gefunden, dann wird darauf basierend geantwortet.

In diesem Beitrag zeige ich ein Verfahren, das vollständig im Browser online läuft, aber trotzdem lokale Ordner einliest und einen Such-/Chat-Workflow ermöglicht – inklusive inkrementellem Update und sauberer Quellenreferenz:

  • PDF: Treffer mit Seitenzahl

  • Nicht-PDF (TXT/MD/CSV/JSON/XML/HTML/DOCX): Treffer mit Zeilen n–m

Hinweis: Das Beispiel nutzt im Kern ein Retrieval (BM25). Eine echte LLM-Antwortgenerierung kannst du optional später ergänzen (z. B. via API). Der zentrale Mehrwert hier ist der belastbare Retrieval-Layer inkl. Quellen.


Was ist das Verfahren?

1) Datenaufnahme (Ingestion)

  • Du lädst eine Dummy-Quelle (z. B. Wikipedia-Summary) per Button, um das System sofort zu testen.

  • Optional wählst du einen lokalen Ordner aus:

    • Chromium/Edge: showDirectoryPicker() (HTTPS oder localhost)

    • Firefox: Fallback per webkitdirectory

2) Parsing / Extraktion

  • PDF wird mit PDF.js seitenweise extrahiert, damit Treffer später korrekt als „Seite X“ referenziert werden können.

  • DOCX wird im Browser via Mammoth.js in Text umgewandelt.

  • Weitere Textformate werden direkt gelesen (CSV/JSON/XML/HTML werden dabei in ein gut chunkbares Textformat umgeformt).

3) Cleaning (Qualitätssicherung)

  • Whitespace-Normalisierung, aber Zeilen werden bewusst erhalten, damit wir später Zeilenbereiche als Quellenangabe ausweisen können.

  • Bei CSV: Erkennung des Trennzeichens und zeilenorientierte Darstellung.

  • Bei HTML: Entfernen von Skript/Style/Navigation und Extraktion des sichtbaren Textes.

4) Chunking
Dokumente werden in Chunks zerlegt, die „retrieval-freundlich“ sind:

  • wortsaubere Chunk-Grenzen (kein Start mitten im Wort)

  • Overlap (Überlappung) für Kontextstabilität

  • Zu jedem Chunk werden Metadaten berechnet:

    • PDF: page

    • Nicht-PDF: line_from / line_to (Zeilen n–m)

5) Index / Retrieval
Im Worker läuft ein BM25-Index:

  • Tokenisierung + Stopword-Filter (DE/EN)

  • BM25-Scoring

  • Ergebnisliste (Top-K) inkl. Kontext-Snippet um den Treffer herum (nicht einfach Chunk-Start)

6) Inkrementelles Update
Beim erneuten Ordner-Scan werden Dateien über Signatur erkannt (Pfad + Größe + lastModified):

  • unveränderte Dateien werden nicht neu verarbeitet

  • geänderte Dateien: alte Chunks werden gelöscht, neue erzeugt

  • gelöschte Dateien: Chunks werden entfernt

7) Persistenz (Cache)
Alle Chunks + Dateisignaturen werden in IndexedDB gespeichert:

  • Browser schließen/öffnen → Cache laden → sofort wieder suchbar

  • Kein Server-State nötig


Warum „Seite“ und „Zeilen n–m“ so wichtig sind

Für professionelle Nutzung ist es nicht genug, „irgendwo stand das“ zu sagen. Du willst:

  • schnell zur Stelle springen

  • bei Reviews/Audits die Quelle belegen

  • Ergebnisse reproduzierbar machen

Darum ist die Quelle in unserem Tool nicht nur „Dokumentname“, sondern:

  • PDF Seite X

  • Text Zeilen n–m

Das ist die Brücke zwischen KI-UX und klassischer Nachvollziehbarkeit.


Grenzen und sinnvolle Datenvolumen-Limits

Damit das Ganze flüssig im Browser bleibt, gelten pragmatische Limits:

  • max. 2 MB pro Datei (konfigurierbar)

  • max. ~5 Mio Zeichen pro Scan (konfigurierbar)

Als Faustregel: Für interaktive Nutzung (ohne Warteorgien) ist ein Ordnerumfang im Bereich einige 10–200 Text/PDF-Seiten gut beherrschbar – abhängig von Gerät/Browser. Wenn du deutlich mehr brauchst:

  • aggressiver chunking/cleaning

  • Vorfilter (nur relevante Unterordner)

  • optional: „Index-Build“ in Batches, oder Worker-Sharding


Typische Use Cases

  • interne Richtlinien, Arbeitsanweisungen, Prozessdokumente

  • Audit-/Prüfungsakten (PDF)

  • Log- und Exportdateien (CSV/JSON)

  • Projektdokumentation (MD/TXT)

  • Word-Dokumente als DOCX


Fazit

Mit diesem Ansatz bekommst du eine nachvollziehbare RAG-Basis im Browser:

  • lokale Dokumente einlesen

  • inkrementell aktualisieren

  • schnell durchsuchen

  • Treffer mit Seiten und Zeilen belegen

Wenn du darauf aufbauen willst, ist der nächste Schritt die Antwortgenerierung über ein LLM (API oder eigenes Modell) – aber der kritische Teil für Professionalität ist oft genau das, was hier schon steht: guter Index + gute Quellen.

Chat Chatbot RAG
powered by social2s

IDEA Python Dashboard: Professionelle Audit Visualisierung mit Plotly (IDEA 12, 13 & Offline)

Details
Super User
IDEA - Datenanalyse
20. Februar 2026
Zugriffe: 35

Ein modernes IDEA Python Dashboard ermöglicht interaktive, datengetriebene Prüfungsanalysen – vollständig offline, datenschutzkonform und direkt in CaseWare IDEA 12 und 13 nutzbar.

In diesem Beitrag zeige ich, wie sich mit Python und Plotly eine professionelle Audit Visualisierung umsetzen lässt – als:

  • Plotly IDEA 12 und 13 Lösung

  • browserbasierte PyScript-Version

  • vollständig isoliertes Offline Audit Dashboard


Warum ein IDEA Python Dashboard?

Klassische Excel-Analysen stoßen bei:

  • Millionen Buchungen

  • Vendor Concentration

  • Ausreißeranalysen

  • Periodenprüfungen

schnell an Grenzen.

Mit Plotly erhältst du:

✔ Interaktive Kreuzfilterung
✔ Mehrfachselektion (Lasso / Box)
✔ KPI-Neuberechnung in Echtzeit
✔ Drilldown bis auf Belegebene
✔ Export als revisionssichere HTML-Datei


Architekturvarianten

1️⃣ Plotly in IDEA 12 und 13

In IDEA 12 und 13 lässt sich Python direkt verwenden:

import pandas as pd
import plotly.express as px

df = pd.read_csv("buchungen.csv", sep=";")

fig = px.bar(
    df.groupby("lieferant")["betrag"].sum().reset_index(),
    x="betrag",
    y="lieferant",
    orientation="h",
    title="Top Lieferanten"
)

fig.write_html("audit_dashboard.html", include_plotlyjs="inline")
 

Vorteile:

  • vollständige Offline-Fähigkeit

  • keine Cloud

  • GoBD-konform archivierbar


2️⃣ Offline Audit Dashboard (100 % lokal)

Für maximale Datensicherheit wird Plotly vollständig inline eingebettet:

fig.write_html(
    "audit_dashboard.html",
    include_plotlyjs="inline",
    full_html=True
)

Kein CDN.
Kein externer Request.
Keine Datenübertragung.

Ideal für:

  • Banken

  • Behörden

  • Interne Revision

  • Prüfungsumgebungen mit Netzrestriktionen

 

3️⃣ PyScript im Browser

Mit PyScript läuft Python direkt im Browser:

<py-script>
import pandas as pd
import plotly.express as px

df = pd.read_csv("data.csv")
fig = px.histogram(df, x="betrag")
fig
</py-script>
 

Einsatzbereiche:

  • Online-Demo

  • Schulungen

  • Workshops

  • Mandantenpräsentationen

 

20 zentrale Visualisierungen im IDEA Python Dashboard

Die folgende Tabelle zeigt die wichtigsten Visualisierungen für eine professionelle Audit Visualisierung:

Visualisierung Prüfungszweck
Zeitreihe Perioden-/Cut-Off-Prüfung
Top-N Balken Vendor Concentration
Histogramm Verteilung / Häufungen
Boxplot Ausreißer je Lieferant
Heatmap Monat × Konto
Treemap Kontenhierarchie
Sankey Zahlungsflüsse
Waterfall Saldenbrücke
KPI Gauge Ausreißerquote
Tabelle Top 100 Detailprüfung

Diese lassen sich vollständig offline betreiben.


Kreuzfilterung im Offline Audit Dashboard

Beispiel: Vendor-Klick filtert Zeitreihe neu

barEl.on("plotly_click", function(ev){
    const vendor = ev.points[0].y;
    selectedVendors.add(vendor);
    rerender();
});

Monatsauswahl:

lineEl.on("plotly_click", function(ev){
    const month = normMonth(ev.points[0].x);
    selectedMonths.add(month);
    rerender();
});
 

Ergebnis:

  • KPIs passen sich an

  • Histogramm aktualisiert sich

  • Tabelle zeigt gefilterte Top-100


Datenschutz & Revisionssicherheit

Ein Offline Audit Dashboard bietet:

  • Keine Cloud

  • Keine externe JavaScript-Quelle

  • Keine CDN-Abhängigkeit

  • Archivierung als HTML

  • Versionierbarkeit

  • Reproduzierbarkeit

Das ist ein entscheidender Vorteil gegenüber klassischen BI-Lösungen.


Online-Demo

👉 Hier geht es zur Demo und Test mit eigenen Daten:
https://majo2000.bplaced.net/python/audit_plotly_dashboard.html

Dort kannst du:

  • Lieferanten selektieren

  • Monate filtern

  • KPIs live neu berechnen

  • Detailtabellen anzeigen


Fazit

Ein Plotly IDEA 12 und 13 Dashboard ist:

  • interaktiv

  • datenschutzkonform

  • offlinefähig

  • explorativ

  • revisionssicher

Es verbindet moderne Datenvisualisierung mit den Anforderungen der Wirtschaftsprüfung.

IDEA Caseware Python Dashboard
powered by social2s

BMF im November 2025: Bericht zur Evaluierung des Gesetzes zum Schutz vor Manipulationen an digitalen Grundaufzeichnungen (Kassengesetz)

Details
Super User
Kasse
11. Februar 2026
Zugriffe: 52

BMF im November 2025: Bericht zur Evaluierung des Gesetzes zum Schutz vor Manipulationen an digitalen Grundaufzeichnungen (Kassengesetz) 

Download unter https://www.bundesfinanzministerium.de/Content/DE/Downloads/Steuern/Evaluierungsberichte/Evaluierung-Kassengesetz-anl.pdf?__blob=publicationFile&v=1 

Kasse BMF KassenSichV
powered by social2s

Neue ZUGFeRD-Version 2.4 veröffentlicht

Details
Super User
E-Rechnung - elektronische Rechnungen
11. Februar 2026
Zugriffe: 58

Neue ZUGFeRD-Version 2.4 veröffentlicht - Veröffentlichung unter https://www.ferd-net.de/aktuelles-veranstaltungen/aktuelles/news/neue-zugferd-version-24-veroeffentlicht-1 

Unterpositionen ab sofort umsatzsteuerkonform nutzbar

Download unter https://www.ferd-net.de/download-zugferd 

E-Rechnung Zugferd elektronische Rechnung
powered by social2s
Seite 1 von 100
  • Start
  • Zurück
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • Weiter
  • Ende
Bootstrap is a front-end framework of Twitter, Inc. Code licensed under MIT License. Font Awesome font licensed under SIL OFL 1.1.
Powered by T3 Framework