Posit AI Blog: Einkaufszentrum 0.2.0

Das Einkaufszentrum verwendet erweiterte Sprachmodelle (LLMs), um Vorgänge zur Verarbeitung natürlicher Sprache (NLP) an Ihren Daten durchzuführen. Dieses Paket ist für R und Python verfügbar. Version 0.2.0 wurde auf CRAN bzw. PyPi veröffentlicht.

In R können Sie die neueste Version installieren mit:

In Python, mit:

Mit dieser Version erhöht sich die Anzahl der LLM-Anbieter, mit denen Sie zusammenarbeiten können mall. Darüber hinaus führt es in Python die Möglichkeit ein, NLP-Operationen an String-Vektoren durchzuführen, und in R ermöglicht es die Unterstützung „parallelisierter“ Abfragen.

Es ist auch sehr aufregend, einen brandneuen Spickzettel für dieses Paket anzukündigen. Es ist im gedruckten Format (PDF) und HTML verfügbar!

Weitere LLM-Anbieter

Das größte Highlight dieser Version ist die Möglichkeit, externe LLM-Anbieter wie OpenAI, Gemini und Anthropic zu nutzen. Anstatt die Integration für jeden Anbieter einzeln zu schreiben, mall nutzt spezielle Integrationspakete als Vermittler.

Im R, mall Benutze die ellmer Paket zur Integration mit einer Vielzahl von LLM-Anbietern. Um auf die neue Funktion zuzugreifen, erstellen Sie zunächst eine Chat-Verbindung und leiten Sie diese Verbindung dann an weiter llm_use(). Hier ist ein Beispiel für die Anbindung und Nutzung von OpenAI:

install.packages("ellmer")

library(mall)
library(ellmer)

chat <- chat_openai()
#> Using model = "gpt-4.1".

llm_use(chat, .cache = "_my_cache")
#> 
#> ── mall session object 
#> Backend: ellmerLLM session: model:gpt-4.1R session: cache_folder:_my_cache

In Python, mall gebraucht chatlas als Integrationspunkt mit dem LLM. chatlas lässt sich auch mit mehreren LLM-Anbietern integrieren. Um es zu verwenden, instanziieren Sie zunächst a chatlas Chat-Verbindungsklasse und übergeben Sie sie dann über die an den Polars-Datenrahmen .llm.use() Funktion:

pip install chatlas

import mall
from chatlas import ChatOpenAI

chat = ChatOpenAI()

data = mall.MallData
reviews = data.reviews

reviews.llm.use(chat)
#> {'backend': 'chatlas', 'chat': 
#> , '_cache': '_mall_cache'}

Liaison mall an externe LLM-Anbieter bringt eine Kostenbetrachtung mit sich. Die meisten Anbieter verlangen für die Nutzung ihrer API Gebühren, daher kann eine große Tabelle mit langem Text ein kostspieliger Vorgang sein.

Parallele Abfragen (nur R)

Eine neue Funktion eingeführt in ellmer Mit Version 0.3.0 kann Access mehrere Eingabeaufforderungen parallel und nicht der Reihe nach senden. Dadurch wird die Bearbeitung einer Tabelle schneller und möglicherweise kostengünstiger. Wenn der Anbieter diese Funktion unterstützt, ellmer ist in der Lage, es über die zu nutzen
parallel_chat()
Funktion. Gemini und OpenAI unterstützen diese Funktion.

In der neuen Version von mallIntegration mit ellmer wurde speziell geschrieben, um den Side-Chat zu nutzen. Die Interna wurden umgeschrieben, um NLP-spezifische Anweisungen als Systemmeldung zu übermitteln und so die Größe jeder Eingabeaufforderung zu reduzieren. Darüber hinaus wurde auch das Cache-System überarbeitet, um Batch-Abfragen zu unterstützen.

NLP-Operationen ohne Tabelle

Seit seiner ersten Version mall ermöglichte es R-Benutzern, NLP-Operationen an einem String-Vektor durchzuführen, mit anderen Worten, ohne dass eine Tabelle erforderlich war. Ab der neuen Version, mall bietet die gleiche Funktionalität auch in seiner Python-Version.

mall kann in a enthaltene Vektoren verarbeiten list Objekt. Um es zu verwenden, initialisieren Sie ein neues LLMVec Klassenobjekt mit entweder einem Ollama-Modell oder einem chatlas Chat

Objekt und greifen Sie dann auf die gleichen NLP-Funktionen wie die Polars-Erweiterung zu.

# Initialize a Chat object
from chatlas import ChatOllama
chat = ChatOllama(model = "llama3.2")

# Pass it to a new LLMVec
from mall import LLMVec
llm = LLMVec(chat)

Greifen Sie über das neue LLMVec-Objekt auf Funktionen zu und übergeben Sie den zu verarbeitenden Text.

llm.sentiment(("I am happy", "I am sad"))
#> ('positive', 'negative')

llm.translate(("Este es el mejor dia!"), "english")
#> ('This is the best day!')

Weitere Informationen finden Sie auf der Referenzseite: LLMVec

Neuer Spickzettel

Der brandneue offizielle Spickzettel ist jetzt auf Posit: Natural Language Processing Using LLM in R/Python verfügbar. Die Besonderheit besteht darin, dass eine Seite der Seite der R-Version und die andere Seite der Python-Version gewidmet ist.

Posit AI Blog: Einkaufszentrum 0.2.0

Eine Webseitenversion ist auch hier auf der offiziellen Cheat-Sheet-Website verfügbar. Es nutzt die Tabulatorfunktion, mit der Sie zwischen R- und Python-Erklärungen und -Beispielen wählen können.