paint-brush
Los 15 mejores conjuntos de datos de Chatbot para proyectos de PNL por@limarc
19,922 lecturas
19,922 lecturas

Los 15 mejores conjuntos de datos de Chatbot para proyectos de PNL

por Limarc Ambalina3m2020/12/02
Read on Terminal Reader
Read this story w/o Javascript

Demasiado Largo; Para Leer

Un chatbot efectivo requiere una gran cantidad de datos de capacitación para resolver rápidamente las consultas de los usuarios sin intervención humana. Sin embargo, el cuello de botella principal en el desarrollo de chatbots es obtener datos de diálogo realistas y orientados a tareas para entrenar estos sistemas basados en aprendizaje automático.

People Mentioned

Mention Thumbnail
Mention Thumbnail

Company Mentioned

Mention Thumbnail
featured image - Los 15 mejores conjuntos de datos de Chatbot para proyectos de PNL
Limarc Ambalina HackerNoon profile picture
Un chatbot efectivo requiere una gran cantidad de datos de entrenamiento para resolver rápidamente las consultas de los usuarios sin intervención humana. Sin embargo, el cuello de botella principal en el desarrollo de chatbots es obtener datos de diálogo realistas y orientados a tareas para entrenar estos sistemas basados en aprendizaje automático. Hemos reunido la lista definitiva de los mejores conjuntos de datos conversacionales para entrenar un chatbot, desglosados en datos de preguntas y respuestas, datos de atención al cliente, datos de diálogo y datos multilingües.

Conjuntos de datos de preguntas y respuestas para la formación de chatbots

: este corpus incluye artículos de Wikipedia, preguntas factoides generadas manualmente a partir de ellos y respuestas generadas manualmente a estas preguntas, para su uso en investigaciones académicas. : un conjunto disponible públicamente de pares de preguntas y oraciones, recopilados y anotados para la investigación sobre la respuesta a preguntas de dominio abierto. Para reflejar la verdadera necesidad de información de los usuarios generales, utilizaron los registros de consultas de Bing como fuente de preguntas. Cada pregunta está vinculada a una página de Wikipedia que potencialmente tiene la respuesta. : esta página presenta conjuntos de datos de control de calidad seleccionados manualmente de Yahoo Respuestas de Yahoo. : TREC ha tenido una pista de respuesta a preguntas desde 1999. En cada pista, la tarea se definió de tal manera que los sistemas debían recuperar pequeños fragmentos de texto que contenían una respuesta para preguntas de clase cerrada y de dominio abierto.

Conjuntos de datos de atención al cliente para la capacitación de Chatbot

: consta de casi un millón de conversaciones de dos personas extraídas de los registros de chat de Ubuntu, que se utilizan para recibir soporte técnico para varios problemas relacionados con Ubuntu. El conjunto de datos completo contiene 930 000 diálogos y más de 100 000 000 palabras : una colección de datos de servicio al cliente relacionados con viajes de cuatro fuentes. Los registros de conversación de tres IVA comerciales de servicio al cliente y los foros de aerolíneas en TripAdvisor.com durante agosto de 2016. : este conjunto de datos en Kaggle incluye más de 3 millones de tweets y respuestas de las marcas más importantes en Twitter.

Conjuntos de datos de diálogo para la capacitación de Chatbot

Registros de : este registro de chat de IRC generado automáticamente está disponible en RDF, desde 2004, a diario, incluidas marcas de tiempo y apodos. : este corpus contiene una gran colección rica en metadatos de conversaciones ficticias extraídas de guiones de películas en bruto: 220 579 intercambios conversacionales entre 10 292 pares de personajes de películas que involucran a 9035 personajes de 617 películas. : el conjunto de datos contiene más de 2000 diálogos para una competencia de , donde evaluadores humanos reclutados a través de la plataforma de crowdsourcing Yandex.Toloka chatearon con bots enviados por equipos. : este conjunto de datos incluye aproximadamente 249 000 palabras de transcripción, audio y marcas de tiempo a nivel de unidades de entonación individuales. : este corpus consta de 10 567 publicaciones de aproximadamente 500 000 publicaciones recopiladas de varios servicios de chat en línea de acuerdo con sus términos de servicio. : conjunto de datos de diálogo abierto donde la conversación tiene como objetivo realizar una tarea o tomar una decisión, específicamente, encontrar vuelos y un hotel. El conjunto de datos contiene conversaciones complejas y toma de decisiones que abarcan más de 250 hoteles, vuelos y destinos. : una colección completamente etiquetada de conversaciones escritas que abarcan múltiples dominios y temas. El conjunto de datos contiene 10k diálogos y es al menos un orden de magnitud más grande que todos los corpus anteriores orientados a tareas anotados.

Conjuntos de datos de capacitación de chatbots multilingües

: Este corpus fue creado para la normalización y traducción de textos de redes sociales. Se crea seleccionando al azar 2000 mensajes del corpus de SMS en inglés de NUS y luego se traduce al chino formal. Conjuntos de datos de : estos conjuntos de datos, disponibles en inglés e italiano, contienen comentarios negativos de los clientes en los que indican los motivos de su insatisfacción con una empresa determinada. ¿Todavía no puede encontrar los datos que necesita? Lionbridge AI proporciona de chat personalizados para el aprendizaje automático en 300 idiomas para ayudar a que sus conversaciones sean más interactivas y comprensivas para los clientes de todo el mundo. para obtener más información sobre cómo podemos trabajar para usted.
Imagen principal a través de Volodymyr en Unsplash Publicado originalmente por Alex Nguyen en: y se ha vuelto a publicar con autorización.
바카라사이트 바카라사이트 온라인바카라