Nytt verktøy som henter og parser webartikler til ren tekst + metadata. Bruker Mozilla Readability (via Node.js) for artikkelekstraksjon, med Playwright som fallback for JS-rendrede sider. Arkitektur: - Rust CLI (clap, reqwest) håndterer HTTP-henting, paywall-deteksjon, JSON-output - Node.js-hjelpeskript (readability.mjs) bruker @mozilla/readability + jsdom - Playwright-script (playwright.mjs) for headless browser-fallback - Støtter --payload-json for maskinrommet/jobbkø-integrasjon Paywall-deteksjon basert på: - Kort innhold (<200 tegn) - Norske/engelske paywall-fraser i innholdet - CSS-klasser/HTML-attributter (piano, schibsted, amedia, etc.) - Schema.org isAccessibleForFree meta-tagg Output: JSON med title, author, date, content, url, paywall, excerpt, source
11 lines
212 B
JSON
11 lines
212 B
JSON
{
|
|
"name": "synops-clip-scripts",
|
|
"version": "0.1.0",
|
|
"private": true,
|
|
"type": "module",
|
|
"dependencies": {
|
|
"@mozilla/readability": "^0.5.0",
|
|
"jsdom": "^25.0.0",
|
|
"playwright": "^1.58.2"
|
|
}
|
|
}
|