Zurück zur Übersicht
Active Python 3.10+ v1.0

Guild Data Extrahieren

WoWProgress schützt seine Seiten mit Cloudflare-Challenges, was traditionelles HTTP-Scraping unmöglich macht. Dieses Tool nutzt Playwright mit einem echten Chromium-Browser, löst die Challenge automatisch und extrahiert Gilden-Rosters inklusive Social-Media-Handles — gebaut für Gildenleiter, Community-Manager und Recruitment-Officers.

// Beispiel JSON-Output
{
  "guild": "Epic Raiders",
  "members": [
    {
      "name": "Thrallion",
      "rank": "Officer",
      "ilvl": 632,
      "discord": "thrall#1234",
      "bnet": "Thrallion#2847"
    }
    // ... weitere Mitglieder
  ]
}

Features

🛡️

Cloudflare Bypass

Nutzt einen echten Browser-Kontext mit konfigurierbarem User-Agent und optionalem Playwright-Stealth zur Umgehung der Bot-Erkennung.

📋

Full Roster Extraction

Parst die Gildenmitglieder-Tabelle inklusive Name, Rang, Rolle (Spec), Item-Level und Profil-URL. Inaktive werden automatisch gefiltert.

🔗

Social Tag Collection

Besucht jedes Mitgliedsprofil und extrahiert Battle.net, Discord, Twitter, Twitch und YouTube Handles via Regex.

⏱️

Rate Limiting

Konfigurierbares Delay mit zufälligem Jitter zwischen Profil-Besuchen um Rate-Limits zu vermeiden.

📄

JSON Output

Sauberer, strukturierter JSON-Output — bereit für Weiterverarbeitung oder Import in Spreadsheets und Datenbanken.

🎭

Stealth Mode

Optionale Playwright-Stealth Integration für besonders hartnäckige Cloudflare-Konfigurationen.

Installation

1

Repository klonen

git clone https://github.com/CheswickDEV/WoWProgress-Scraper.git

2

Dependencies installieren

pip install playwright playwright-stealth und danach playwright install chromium

3

Scraper starten

Guild-URL als Parameter übergeben und den Scraper laufen lassen. Ergebnis wird als JSON ausgegeben.