banner
Nachrichtenzentrum
Erstklassige Komponenten, präzises Qualitätsmanagement.

Lernen Sie Chamäleon kennen: Ein Plug

Aug 07, 2023

Aktuelle große Sprachmodelle (LLMs) für verschiedene NLP-Aufgaben haben bemerkenswerte Fortschritte gemacht, wobei bemerkenswerte Beispiele GPT-3, PaLM, LLaMA, ChatGPT und das kürzlich vorgeschlagene GPT-4 sind. Diese Modelle sind für die menschenähnliche Planung und Entscheidungsfindung enorm vielversprechend, da sie verschiedene Aufgaben in Zero-Shot-Situationen oder mit Hilfe weniger Instanzen lösen können. Neue Fähigkeiten, darunter kontextbezogenes Lernen, mathematisches Denken und gesundes Menschenverstandsdenken, werden in LLMs gezeigt. LLMs weisen jedoch eingebaute Einschränkungen auf, wie z. B. die Unfähigkeit, externe Tools zu verwenden, auf aktuelle Informationen zuzugreifen oder mathematisch präzise zu argumentieren.

Ein laufender Forschungsbereich konzentriert sich auf die Verbesserung von Sprachmodellen durch Zugriff auf externe Tools und Ressourcen und die Untersuchung der Integration von Outdoor-Tools und modularen Plug-and-Play-Strategien zur Lösung dieser Einschränkungen von LLMs. Neuere Forschungen verwenden LLMs, um komplizierte Programme zu erstellen, die Probleme des logischen Denkens effizienter lösen und starke Computerressourcen nutzen, um die mathematischen Denkfähigkeiten zu verbessern. Mithilfe externer Wissensquellen und Online-Suchmaschinen können LLMs beispielsweise Echtzeitinformationen beschaffen und domänenspezifisches Wissen nutzen. Eine weitere aktuelle Forschungslinie, darunter ViperGPT, Visual ChatGPT, VisProg und HuggingGPT, integriert mehrere grundlegende Computer-Vision-Modelle, um LLMs die erforderlichen Fähigkeiten zur Bewältigung von Problemen des visuellen Denkens zu vermitteln.

Trotz erheblicher Fortschritte stoßen die heutigen, durch Tools erweiterten LLMs bei der Beantwortung realer Anfragen immer noch auf große Hindernisse. Die meisten aktuellen Techniken sind auf eine begrenzte Anzahl von Tools beschränkt oder basieren auf bestimmten Geräten für eine bestimmte Domäne, was es schwierig macht, sie auf verschiedene Anfragen zu übertragen. Abbildung 1 verdeutlicht dies: „Welcher Überzeugungsfaktor wird in dieser Anzeige am häufigsten verwendet?“ 1) Nehmen Sie an, dass ein Werbebild einen Textkontext hat, und rufen Sie einen Textdecoder auf, um die Semantik zu verstehen und auf diese Anfrage zu antworten. 2) Hintergrundinformationen finden, um zu erklären, was „Überzeugungskraft“ ist und wie sich die verschiedenen Arten unterscheiden; 3) unter Verwendung der Hinweise aus der Eingabefrage und der Zwischenergebnisse aus früheren Phasen eine Lösung erarbeiten; und 4) schließlich die Antwort aufgabenspezifisch präsentieren.

Andererseits muss man bei der Beantwortung der Frage „Welche Tierhaut ist für das Überleben an kalten Orten geeignet?“ möglicherweise zusätzliche Module kontaktieren, beispielsweise einen Bilduntertitel zum Analysieren von Bildinformationen und eine Websuchmaschine zum Sammeln von Domänenwissen wissenschaftliche Terminologie verstehen. Forscher der UCLA und von Microsoft Research stellen Chameleon bereit, ein Plug-and-Play-Framework für kompositorisches Denken, das riesige Sprachmodelle verwendet, um diese Probleme zu lösen. Chameleon kann Programme synthetisieren, um verschiedene Tools zur Beantwortung mehrerer Fragen zu erstellen.

Chameleon ist ein Planer in natürlicher Sprache, der auf einem LLM aufbaut. Im Gegensatz zu herkömmlichen Methoden werden verschiedene Tools wie LLMs, vorgefertigte Computer-Vision-Modelle, Online-Suchmaschinen, Python-Funktionen und regelbasierte Module verwendet, die für ein bestimmtes Ziel entwickelt wurden. Chameleon generiert diese Programme mithilfe der kontextbezogenen Lernfunktionen von LLMs und erfordert keine Schulung. Der Planer kann die richtige Reihenfolge der zu erstellenden und auszuführenden Tools ableiten, um die endgültige Antwort auf eine Benutzeranfrage bereitzustellen, angeleitet durch Beschreibungen der einzelnen Tools und Beispiele für die Tool-Nutzung.

Chameleon erstellt Programme, die der natürlichen Sprache ähneln, im Gegensatz zu früheren Bemühungen, domänenspezifische Programme zu erstellen. Diese Programme sind weniger fehleranfällig, einfacher zu debuggen, benutzerfreundlicher für Personen mit geringen Programmierkenntnissen und um neue Module erweiterbar. Jedes Modul im Programm führt die Abfrage und den Kontext aus, verarbeitet und speichert sie im Cache, gibt eine vom Modul ausgewählte Antwort zurück und ändert die Abfrage und den gespeicherten Kontext für bevorstehende Modulausführungen. Indem Module als sequentielles Programm zusammengestellt werden, können aktualisierte Abfragen und zuvor zwischengespeicherter Kontext während der Ausführung der nächsten Module verwendet werden. An zwei Aufgaben – ScienceQA und TabMWP – demonstrieren sie die Flexibilität und Leistungsfähigkeit von Chameleon.

TabMWP ist ein Mathematik-Benchmark, der zahlreiche tabellarische Kontexte umfasst, während ScienceQA ein multimodaler Frage-Antwort-Benchmark ist, der viele Kontextformate und wissenschaftliche Themen umfasst. Die Wirksamkeit der Fähigkeit von Chameleon, verschiedene Tools über verschiedene Typen und Domänen hinweg zu koordinieren, kann anhand dieser beiden Benchmarks getestet werden. Bemerkenswert ist, dass Chameleon mit GPT-4 bei ScienceQA eine Genauigkeit von 86,54 % erreicht und damit das am besten gemeldete Wenig-Schuss-Modell um den Faktor 11,37 % übertrifft. Chameleon liefert eine Verbesserung von 7,97 % gegenüber CoT GPT-4 und eine Steigerung von 17,8 % gegenüber dem hochmodernen Modell auf TabMWP, das GPT-4 als zugrunde liegendes LLM verwendet, was zu einer Gesamtgenauigkeit von 98,78 % führt.

Im Vergleich zu früheren LLMs wie ChatGPT deuten weitere Untersuchungen darauf hin, dass der Einsatz von GPT-4 als Planer eine konsistentere und logischere Werkzeugauswahl ermöglicht und anhand der Anweisungen wahrscheinliche Einschränkungen ableiten kann. Ihre kurzen Beiträge lauten wie folgt: (1) Sie erstellen Chameleon, ein Plug-and-Play-Framework für kompositorisches Denken, um die inhärenten Grenzen riesiger Sprachmodelle zu überwinden und verschiedene Argumentationsaufgaben zu übernehmen. (2) Sie kombinieren effektiv mehrere Technologien, darunter LLMs, kommerzielle Visionsmodelle, Online-Suchmaschinen, Python-Funktionen und regelbasierte Module, um ein flexibles und anpassungsfähiges KI-System zu schaffen, das auf Anfragen aus der realen Welt reagiert. (3) Sie bringen den Stand der Technik erheblich voran, indem sie die Flexibilität und Wirksamkeit des Frameworks anhand von zwei Benchmarks, ScienceQA und TabMWP, demonstrieren. Die Codebasis ist öffentlich auf GitHub verfügbar.

Besuche diePapier,Projekt,UndGithub . Vergessen Sie nicht, mitzumachenunser 19k+ ML SubReddit,Discord-Kanal, UndE-Mail-Newsletter , wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an[email protected]

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an

Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Technology (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.

Abbildung 1: Papierprojekt, Github, unser über 19.000 ML SubReddit Discord Channel E-Mail-Newsletter [email protected] 🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an