Στην εποχή της γενετικής τεχνητής νοημοσύνης, όταν τα chatbots μπορούν να παρέχουν λεπτομερείς απαντήσεις σε ερωτήσεις που βασίζονται σε περιεχόμενο που αντλείται από το Διαδίκτυο, η γραμμή μεταξύ της ορθής χρήσης και της λογοκλοπής και μεταξύ της συνήθους απόξεσης ιστού και της ανήθικης περίληψης είναι λεπτή.
Το
Perplexity AI είναι μια startup που συνδυάζει μια μηχανή αναζήτησης με ένα μεγάλο μοντέλο γλώσσας που παράγει απαντήσεις με λεπτομερείς απαντήσεις και όχι απλώς συνδέσμους. Σε αντίθεση με το
ChatGPT
του OpenAI και τον Claude του Anthropic, το Perplexity δεν εκπαιδεύει τα δικά του βασικά μοντέλα AI, αντί να χρησιμοποιεί ανοιχτά ή εμπορικά διαθέσιμα για να πάρει τις πληροφορίες που συλλέγει από το Διαδίκτυο και να τις μεταφράσει σε απαντήσεις.
Αλλά μια σειρά από κατηγορίες τον Ιούνιο υποδηλώνει ότι η προσέγγιση της startup είναι ανήθικη. Το Forbes αποκάλεσε το Perplexity για λογοκλοπή σε ένα από τα ειδησεογραφικά του άρθρα στη λειτουργία beta Perplexity Pages της startup. Και
Το Wired κατηγόρησε το Perplexity
της παράνομης απόξεσης του ιστότοπού της, μαζί με άλλους ιστότοπους.
Η Perplexity, η οποία από τον Απρίλιο προσπαθούσε να συγκεντρώσει 250 εκατομμύρια δολάρια σε αποτίμηση σχεδόν 3 δισεκατομμυρίων δολαρίων, υποστηρίζει ότι δεν έχει κάνει τίποτα κακό. Η εταιρεία που υποστηρίζεται από την Nvidia και τον Τζεφ Μπέζος λέει ότι έχει τίμησε τα αιτήματα των εκδοτών να μην διαγράψουν περιεχόμενο και ότι λειτουργεί εντός των ορίων των νόμων περί πνευματικής ιδιοκτησίας περί θεμιτής χρήσης.
Η κατάσταση είναι περίπλοκη. Στην καρδιά του υπάρχουν αποχρώσεις που περιβάλλουν δύο έννοιες. Το πρώτο είναι το πρωτόκολλο εξαίρεσης ρομπότ, ένα πρότυπο που χρησιμοποιείται από ιστότοπους για να υποδείξουν ότι δεν θέλουν το περιεχόμενό τους να έχει πρόσβαση ή να χρησιμοποιείται από προγράμματα ανίχνευσης ιστού. Το δεύτερο είναι η δίκαιη χρήση στη νομοθεσία περί πνευματικών δικαιωμάτων, η οποία θέτει το νομικό πλαίσιο για να επιτρέπεται η χρήση υλικού που προστατεύεται από πνευματικά δικαιώματα χωρίς άδεια ή πληρωμή σε ορισμένες περιπτώσεις.
Κρυφά απόξεση περιεχομένου ιστού
Συντελεστές εικόνας:
Getty Images
Η ιστορία του Wired της 19ης Ιουνίου ισχυρίζεται ότι το Perplexity αγνόησε το Πρωτόκολλο Εξαίρεσης Ρομπότ για να αποκόψει κρυφά περιοχές ιστότοπων στις οποίες οι εκδότες δεν θέλουν να έχουν πρόσβαση τα ρομπότ. Η Wired ανέφερε ότι παρατήρησε ένα μηχάνημα συνδεδεμένο με το Perplexity να το έκανε αυτό στον δικό του ιστότοπο ειδήσεων, καθώς και σε άλλες εκδόσεις υπό τη μητρική του εταιρεία, Condé Nast.
Η έκθεση σημείωσε ότι ο προγραμματιστής
Ο Robb Knight έκανε ένα παρόμοιο πείραμα
και κατέληξε στο ίδιο συμπέρασμα.
Τόσο οι δημοσιογράφοι του Wired όσο και ο Knight δοκίμασαν τις υποψίες τους ζητώντας από το Perplexity να συνοψίσει μια σειρά από διευθύνσεις URL και, στη συνέχεια, παρακολουθώντας από την πλευρά του διακομιστή, μια διεύθυνση IP που σχετίζεται με το Perplexity επισκέφτηκε αυτούς τους ιστότοπους. Στη συνέχεια, το Perplexity «συνόψισε» το κείμενο από αυτές τις διευθύνσεις URL — αν και στην περίπτωση ενός εικονικού ιστότοπου με περιορισμένο περιεχόμενο που δημιούργησε το Wired για αυτόν τον σκοπό, επέστρεψε κείμενο από τη σελίδα κατά λέξη.
Εδώ μπαίνουν στο παιχνίδι οι αποχρώσεις του Πρωτοκόλλου Εξαίρεσης Ρομπότ.
Web scraping είναι
τεχνικά
όταν αυτοματοποιημένα κομμάτια λογισμικού γνωστά ως ανιχνευτές σαρώνουν τον ιστό για να ευρετηριάσουν και να συλλέξουν πληροφορίες από ιστότοπους. Οι μηχανές αναζήτησης όπως η Google το κάνουν έτσι ώστε οι ιστοσελίδες να μπορούν να συμπεριληφθούν στα αποτελέσματα αναζήτησης. Άλλες εταιρείες και ερευνητές χρησιμοποιούν ανιχνευτές για τη συλλογή δεδομένων από το Διαδίκτυο για ανάλυση αγοράς, ακαδημαϊκή έρευνα και, όπως μάθαμε, εκπαίδευση μοντέλων μηχανικής εκμάθησης.
Οι αποξεστές Ιστού που συμμορφώνονται με αυτό το πρωτόκολλο θα αναζητήσουν πρώτα το αρχείο “robots.txt” στον πηγαίο κώδικα ενός ιστότοπου για να δουν τι επιτρέπεται και τι όχι — σήμερα, αυτό που δεν επιτρέπεται είναι συνήθως η απόξεση του ιστότοπου ενός εκδότη για τη δημιουργία τεράστιων συνόλων δεδομένων εκπαίδευσης για AI. Οι μηχανές αναζήτησης και οι εταιρείες τεχνητής νοημοσύνης, συμπεριλαμβανομένης της Perplexity, έχουν δηλώσει ότι συμμορφώνονται με το πρωτόκολλο, αλλά δεν είναι νομικά υποχρεωμένες να το πράξουν.
Ο επικεφαλής των επιχειρήσεων της Perplexity, Ντμίτρι Σεβελένκο, είπε στο TechCrunch ότι η σύνοψη μιας διεύθυνσης URL δεν είναι το ίδιο πράγμα με την ανίχνευση. “Η ανίχνευση είναι όταν απλώς ρουφάς πληροφορίες και τις προσθέτεις στο ευρετήριό σου”, είπε ο Shevelenko. Σημείωσε ότι η IP του Perplexity μπορεί να εμφανιστεί ως επισκέπτης σε έναν ιστότοπο που «αλλιώς απαγορεύεται από το robots.txt» μόνο όταν ένας χρήστης βάζει μια διεύθυνση URL στο ερώτημά του, η οποία «δεν πληροί τον ορισμό της ανίχνευσης».
“Απαντάμε απλώς σε ένα άμεσο και συγκεκριμένο αίτημα χρήστη για μετάβαση σε αυτό το URL”, είπε ο Shevelenko.
Με άλλα λόγια, εάν ένας χρήστης παρέχει με μη αυτόματο τρόπο μια διεύθυνση URL σε ένα AI, το Perplexity λέει ότι το AI του δεν λειτουργεί ως πρόγραμμα ανίχνευσης ιστού αλλά μάλλον ως εργαλείο που βοηθά τον χρήστη να ανακτήσει και να επεξεργαστεί τις πληροφορίες που ζήτησε.
Αλλά για το Wired και πολλούς άλλους εκδότες, αυτή είναι μια διάκριση χωρίς διαφορά, επειδή η επίσκεψη σε μια διεύθυνση URL και η άντληση των πληροφοριών από αυτήν για τη σύνοψη του κειμένου σίγουρα μοιάζει πολύ με το ξύσιμο, αν γίνεται χιλιάδες φορές την ημέρα.
(Το Wired ανέφερε επίσης ότι το
Amazon
Web Services, ένας από τους παρόχους υπηρεσιών cloud της Perplexity, είναι
διερεύνηση της εκκίνησης
για παράβλεψη του πρωτοκόλλου robots.txt για την απόξεση ιστοσελίδων που ανέφεραν οι χρήστες στην προτροπή τους. Η AWS είπε στο TechCrunch ότι η αναφορά του Wired είναι ανακριβής και ότι είπε στο πρακτορείο ότι επεξεργαζόταν την έρευνά της για τα μέσα όπως κάνει οποιαδήποτε άλλη αναφορά που ισχυρίζεται ότι κατάχρηση της υπηρεσίας.)
Λογοκλοπή ή ορθή χρήση;

Συντελεστές εικόνας:
Αμηχανία / Στιγμιότυπο οθόνης
Το Wired και το Forbes έχουν επίσης κατηγορήσει τον Perplexity για λογοκλοπή. Κατά ειρωνικό τρόπο, λέει ο Wired
Η αμηχανία λογοκλοπή το ίδιο το άρθρο
που κάλεσε την startup για κρυφά απόξεση του περιεχομένου της στον ιστό.
Οι ενσύρματοι δημοσιογράφοι είπαν ότι το chatbot Perplexity «παρήγαγε μια παράγραφο έξι,
Κείμενο 287 λέξεων
συνοψίζοντας στενά τα συμπεράσματα της ιστορίας και τα στοιχεία που χρησιμοποιήθηκαν για να φτάσουμε σε αυτά». Μια πρόταση αναπαράγει ακριβώς μια πρόταση από την αρχική ιστορία. Το Wired λέει ότι αυτό συνιστά λογοκλοπή.
Οδηγίες του Ινστιτούτου Poynter
ας πούμε ότι μπορεί να είναι λογοκλοπή εάν ο συγγραφέας (ή η τεχνητή νοημοσύνη) χρησιμοποιούσε επτά διαδοχικές λέξεις από το αρχικό έργο πηγής.
Το Forbes κατηγόρησε επίσης την Perplexity για λογοκλοπή. Ο ειδησεογραφικός ιστότοπος δημοσίευσε ένα
ερευνητική έκθεση
στις αρχές Ιουνίου για το πώς το νέο εγχείρημα του Διευθύνοντος Συμβούλου της Google, Eric Schmidt, στρατολογεί σε μεγάλο βαθμό και δοκιμάζει drones που λειτουργούν με τεχνητή νοημοσύνη με στρατιωτικές εφαρμογές. Την επόμενη μέρα, ο συντάκτης του Forbes John Paczkowski
αναρτήθηκε στο Χ
λέγοντας ότι το Perplexity είχε
αναδημοσίευσε τη σέσουλα
ως μέρος της δυνατότητας beta, Perplexity Pages.
Σελίδες αμηχανίας
, το οποίο είναι διαθέσιμο μόνο σε ορισμένους συνδρομητές του Perplexity προς το παρόν, είναι ένα νέο εργαλείο που υπόσχεται να βοηθήσει τους χρήστες να μετατρέψουν την έρευνα σε «οπτικά εντυπωσιακό, ολοκληρωμένο περιεχόμενο», σύμφωνα με το Perplexity. Παραδείγματα τέτοιου περιεχομένου στον ιστότοπο προέρχονται από τους υπαλλήλους της startup και περιλαμβάνουν άρθρα όπως “Ένας οδηγός για αρχάριους στο drumming” ή “Steve Jobs: οραματιστής CEO”.
«Καταργεί το μεγαλύτερο μέρος των ρεπορτάζ μας», έγραψε ο Paczkowski. «Αναφέρει εμάς, και μερικά που μας έκαναν reblogged, ως πηγές με τον πιο εύκολα αγνοούμενο τρόπο».
ανέφερε το Forbes
ότι πολλές από τις αναρτήσεις που επιμελήθηκαν η ομάδα Perplexity είναι «εντυπωσιακά παρόμοιες με πρωτότυπες ιστορίες από πολλές εκδόσεις, συμπεριλαμβανομένων των Forbes, CNBC και Bloomberg». Το Forbes είπε ότι οι αναρτήσεις συγκέντρωσαν δεκάδες χιλιάδες προβολές και δεν ανέφεραν καμία από τις δημοσιεύσεις ονομαστικά στο κείμενο του άρθρου. Αντίθετα, τα άρθρα του Perplexity περιλάμβαναν αναφορές με τη μορφή «μικρών λογότυπων που εύκολα να χάσετε που συνδέονται με αυτά».
Επιπλέον, το Forbes είπε ότι η ανάρτηση για τον Schmidt περιέχει «σχεδόν πανομοιότυπη διατύπωση» με τη σέσουλα του Forbes. Η συγκέντρωση περιελάμβανε επίσης μια εικόνα που δημιουργήθηκε από την ομάδα σχεδιασμού του Forbes που φαινόταν να τροποποιήθηκε ελαφρώς από το Perplexity.
Ο Διευθύνων Σύμβουλος του Perplexity, Aravind Srinivas, απάντησε στο Forbes εκείνη την εποχή, λέγοντας ότι η startup θα αναφέρει πιο εμφανή πηγές στο μέλλον – μια λύση που δεν είναι αλάνθαστη, καθώς οι ίδιες οι αναφορές αντιμετωπίζουν τεχνικές δυσκολίες.
Το ChatGPT και άλλα μοντέλα έχουν παραισθήσεις συνδέσμους
, και δεδομένου ότι το Perplexity χρησιμοποιεί μοντέλα OpenAI, είναι πιθανό να είναι ευαίσθητο σε τέτοιες παραισθήσεις. Στην πραγματικότητα, το Wired ανέφερε ότι παρατήρησε το Perplexity να παριστάνει ολόκληρες ιστορίες.
Εκτός από την επισήμανση των “τραχών άκρων” του Perplexity, ο Srinivas και η εταιρεία έχουν σε μεγάλο βαθμό διπλασιάσει το δικαίωμα της Perplexity να χρησιμοποιεί τέτοιο περιεχόμενο για συνοψίσεις.
Εδώ μπαίνουν στο παιχνίδι οι αποχρώσεις της ορθής χρήσης. Η λογοκλοπή, αν και αποδοκιμάζεται, δεν είναι τεχνικά παράνομη.
Σύμφωνα με την
Γραφείο Πνευματικών Δικαιωμάτων των ΗΠΑ
, είναι νόμιμη η χρήση περιορισμένων τμημάτων ενός έργου, συμπεριλαμβανομένων αποσπασμάτων για σκοπούς όπως σχολιασμός, κριτική, ρεπορτάζ ειδήσεων και επιστημονικές αναφορές. Οι εταιρείες τεχνητής νοημοσύνης όπως η Perplexity υποστηρίζουν ότι η παροχή μιας περίληψης ενός άρθρου εμπίπτει στα όρια της ορθής χρήσης.
«Κανείς δεν έχει το μονοπώλιο των γεγονότων», είπε ο Σεβελένκο. «Από τη στιγμή που τα γεγονότα είναι ανοιχτά, μπορούν να τα χρησιμοποιήσουν όλοι».
Ο Σεβελένκο παρομοίασε τις περιλήψεις του Perplexity με το πώς οι δημοσιογράφοι χρησιμοποιούν συχνά πληροφορίες από άλλες πηγές ειδήσεων για να ενισχύσουν το δικό τους ρεπορτάζ.
Ο Mark McKenna, καθηγητής Νομικής στο Ινστιτούτο Τεχνολογίας, Νόμου και
Πολιτική
ς του UCLA, είπε στο TechCrunch ότι η κατάσταση δεν είναι εύκολο να ξεμπερδευτεί. Σε μια υπόθεση ορθής χρήσης, τα δικαστήρια θα σταθμίσουν εάν η περίληψη χρησιμοποιεί σε μεγάλο βαθμό την έκφραση του αρχικού άρθρου, έναντι μόνο των ιδεών. Θα μπορούσαν επίσης να εξετάσουν εάν η ανάγνωση της περίληψης μπορεί να είναι υποκατάστατο για την ανάγνωση του άρθρου.
«Δεν υπάρχουν φωτεινές γραμμές», είπε ο McKenna. “Ετσι [Perplexity] λέγοντας πραγματικά αυτό που λέει ένα άρθρο ή αυτό που αναφέρει θα ήταν η χρήση πτυχών του έργου που δεν προστατεύονται από πνευματικά δικαιώματα. Αυτά θα ήταν απλώς γεγονότα και ιδέες. Αλλά όσο περισσότερο η περίληψη περιλαμβάνει πραγματική έκφραση και κείμενο, τόσο περισσότερο αυτό αρχίζει να μοιάζει με αναπαραγωγή, παρά με απλή περίληψη».
Δυστυχώς για τους εκδότες, εκτός εάν το Perplexity χρησιμοποιεί πλήρεις εκφράσεις (και προφανώς, σε ορισμένες περιπτώσεις, είναι), οι περιλήψεις του ενδέχεται να μην θεωρηθούν παραβίαση της ορθής χρήσης.
Πώς το Perplexity στοχεύει να προστατεύσει τον εαυτό του
Εταιρείες τεχνητής νοημοσύνης όπως το OpenAI έχουν υπογράψει συμφωνίες πολυμέσων με μια σειρά από εκδότες ειδήσεων για να έχουν πρόσβαση στο τρέχον και αρχειακό περιεχόμενό τους για την εκπαίδευση των αλγορίθμων τους. Σε αντάλλαγμα, το OpenAI υπόσχεται να εμφανίσει άρθρα ειδήσεων από αυτούς τους εκδότες ως απάντηση στα ερωτήματα των χρηστών στο ChatGPT. (Αλλά και αυτό
έχει κάποιες στροφές που πρέπει να επιλυθούν
όπως ανέφερε το Nieman Lab την περασμένη εβδομάδα.)
Η Perplexity απέφυγε να ανακοινώσει τις δικές της συμφωνίες με τα μέσα ενημέρωσης, ίσως περιμένοντας να ξεσπάσουν οι κατηγορίες εναντίον της. Αλλά η εταιρεία είναι «με πλήρη ταχύτητα» σε μια σειρά συμφωνιών κατανομής εσόδων από διαφημίσεις με εκδότες.
Η ιδέα είναι ότι το Perplexity θα αρχίσει να περιλαμβάνει διαφημίσεις μαζί με απαντήσεις ερωτημάτων και οι εκδότες που έχουν περιεχόμενο που αναφέρεται σε οποιαδήποτε απάντηση θα λάβουν ένα μέρος από τα αντίστοιχα έσοδα από διαφημίσεις. Ο Shevelenko είπε ότι το Perplexity εργάζεται επίσης για να επιτρέψει στους εκδότες πρόσβαση στην τεχνολογία του, ώστε να μπορούν να δημιουργήσουν εμπειρίες Q&A και να ενισχύσουν πράγματα όπως σχετικές ερωτήσεις εγγενώς μέσα στους ιστότοπους και τα προϊόντα τους.
Είναι όμως αυτό απλώς ένα φύλλο συκής για συστημική κλοπή IP; Το Perplexity δεν είναι το μόνο chatbot που απειλεί να συνοψίσει τόσο πλήρως το περιεχόμενο που οι αναγνώστες δεν καταλαβαίνουν την ανάγκη να κάνουν κλικ στο αρχικό υλικό πηγής.
Και αν οι μηχανές τεχνητής νοημοσύνης όπως αυτή συνεχίσουν να παίρνουν το έργο των εκδοτών και να το
επα
ναχρησιμοποιούν για τις δικές τους επιχειρήσεις, οι εκδότες θα δυσκολευτούν να κερδίσουν δολάρια από διαφημίσεις. Αυτό σημαίνει ότι τελικά, θα υπάρχει λιγότερο περιεχόμενο για ξύσιμο. Όταν δεν απομένει άλλο περιεχόμενο για αποκόλληση, τα συστήματα παραγωγής τεχνητής νοημοσύνης θα στραφούν στη συνέχεια στην εκπαίδευση σε συνθετικά δεδομένα, κάτι που θα μπορούσε να οδηγήσει σε έναν κολασμένο βρόχο ανατροφοδότησης δυνητικά μεροληπτικού και ανακριβούς περιεχομένου.
VIA:
techcrunch.com

0