151 чтения

Эффективная управляемая генерация больших языковых моделей: обсуждение, ссылки и благодарности

к Writings, Papers and Blogs on Text Models4m2024/06/02

Слишком долго; Читать

Исследователи предлагают структуру конечного автомата для генерации текста, предлагающую точный контроль и улучшенную производительность.

featured image - Эффективная управляемая генерация больших языковых моделей: обсуждение, ссылки и благодарности

Автор:

(1) Брэндон Т. Уиллард, Нормальные вычисления; (2) Реми Луф, Нормальные вычисления.

Таблица ссылок

5. Обсуждение

Индексирование словаря, представленное в этой статье, устраняет непомерный барьер масштабирования во время выполнения при управляемой генерации. Естественно, при этом приходится искать компромисс между обработкой и памятью, но мы считаем, что затраты на память в среднем относительно невелики, а в противном случае их можно снизить традиционными способами.

В наших тестах с использованием слегка расширенной версии грамматики Python мы обнаружили, что даже наивно построенные индексы (т. е. содержащие неиспользуемые и избыточные конфигурации состояний синтаксического анализатора и автомата) по-прежнему занимают всего около 50 МБ. Более того, эти индексы были построены с использованием несокращенных DFA, а это означает, что существует множество избыточных состояний, неоправданно увеличивающих размер индексов. Аналогичным образом, если точное представление конечных автоматов когда-либо является проблемой, возможно, что могут подойти другие формулировки конечных автоматов с меньшими требованиями к памяти (например, NFA).

Значение этой работы не ограничивается генерацией нейронного текста. Например, можно использовать описанный здесь подход индексирования, чтобы помочь в обучении или точной настройке LLM, когда требуются структурированные результаты. Мы также можем предположить, что вспомогательная генерация во время обучения может уменьшить потребность модели в изучении синтаксических деталей.

Кроме того, этот метод обеспечивает альтернативный способ оценки текущих моделей. Можно, например, попытаться количественно оценить несоответствие между замаскированными логитами, сгенерированными нашим методом, и необработанными логитами, сгенерированными моделью. Что, в свою очередь, может повлиять на цель обучения модели.

Также возможно «поднять» маски, вычисленные этим подходом, в сами модели языка. По сути, маски неявно определяют, какие вычисления не нужно выполнять. Наша текущая формулировка применяет маски только на самом низком уровне, но, подняв маски дальше в архитектуру модели, мы сможем модулировать, какие фрагменты параметров модели необходимы, прежде чем выполнять над ними ненужные операции. Это потенциально может еще больше снизить вычислительные затраты.