Perplexity è stata a lungo accusata di bypassare deliberatamente le misure anti-scraping per recuperare contenuti web. Sebbene l’azienda abbia storicamente respinto queste accuse come disoneste o frutto di incomprensioni, un nuovo rapporto mostra che non solo la pratica continua, ma potrebbe addirittura peggiorare.
Il problema delle pratiche di web crawling di Perplexity è emerso per la prima volta nel giugno 2024, quando Wired e altri media hanno accusato l’azienda di ignorare il Robots Exclusion Protocol e di estrarre contenuti dai loro siti web. All’epoca, il CEO di Perplexity, Aravind Srinivas, ha dichiarato che il colpevole era un fornitore di web crawling di terze parti non specificato, e che c’era “una comprensione di base errata del funzionamento di questo processo”.
Non ci è voluto molto prima che altre pubblicazioni iniziassero ad accusare Perplexity di plagio e scraping web non etico, con il New York Times e la BBC che hanno persino minacciato azioni legali. All’epoca, Perplexity ha affermato che la BBC era “manipolativa e opportunistica” e aveva “una comprensione fondamentale errata della tecnologia, di internet e delle leggi sulla proprietà intellettuale”.
Da allora, Perplexity ha ripetutamente negato questa linea di accusa, contestando la definizione di crawling e scraping in casi d’uso specifici. Come riportato da Wired, se un utente fornisce manualmente un URL a un’IA, Perplexity sostiene che la sua IA non agisce come un web crawler, ma piuttosto come uno strumento per assistere l’utente nel recupero e nell’elaborazione delle informazioni richieste. Tuttavia, per Wired e molti altri editori, questa è una distinzione senza differenza, poiché visitare un URL e estrarre le informazioni per riassumere il testo sembra molto simile allo scraping se viene fatto migliaia di volte al giorno.
Allo stesso modo, Srinivas ha promesso in passato che l’azienda avrebbe reso più facile accedere alla fonte originale dei contenuti emersi dal loro motore di risposta. Tuttavia, questo non affronta il fatto che il problema risiede nella fonte delle informazioni, piuttosto che solo nel modo in cui vengono presentate.
Oggi, Cloudflare ha pubblicato un rapporto che afferma che anche quando un server nega specificamente tutto l’accesso automatizzato e include regole specifiche che bloccano il crawling dai crawler pubblici di Perplexity, Perplexity lo fa comunque. Secondo Cloudflare, “Abbiamo osservato che Perplexity utilizza non solo il loro user-agent dichiarato, ma anche un browser generico destinato a impersonare Google Chrome su macOS quando il loro crawler dichiarato era bloccato. Sia i loro crawler dichiarati che non dichiarati tentavano di accedere ai contenuti per lo scraping in contrasto con le norme di web crawling come delineato nell’RFC 9309. Questo crawler non dichiarato utilizzava più IP non elencati nell’intervallo IP ufficiale di Perplexity e ruotava attraverso questi IP in risposta alla politica restrittiva del robots.txt e al blocco di Cloudflare. Oltre a ruotare gli IP, abbiamo osservato richieste provenienti da diversi ASN nel tentativo di eludere ulteriormente i blocchi dei siti web. Questa attività è stata osservata su decine di migliaia di domini.”
Considerazioni finali
Dal nostro punto di vista, la questione del web scraping e delle pratiche di crawling di Perplexity solleva importanti interrogativi sull’etica e la trasparenza nel mondo digitale. Mentre la tecnologia continua a evolversi, è fondamentale che le aziende operino con integrità e rispettino le norme stabilite per garantire un ecosistema online equo e sicuro. Riteniamo che sia essenziale un dialogo aperto tra le aziende tecnologiche e i creatori di contenuti per trovare soluzioni che bilancino l’innovazione con il rispetto dei diritti digitali.
Fonte: 9to5Mac





