Learning and adaptivity in interactive recommender systems

Learning and adaptivity in interactive recommendersystems

Autores: Tariq Mahmood, Francesco Ricci

Pontificia Universidad Catolica

October 29, 2015

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 1 / 28

Overview

1 Motivacion

2 Modelo

3 Estudio de un Caso

4 Evaluacion

5 Resultados

6 Conclusiones

Motivacion

Los sistemas de recomendacion tradicionales se desvıan de unamanera natural de recomendar.

Los sistemas de recomendacion conversacionales, no son adaptivos.

Solucion?

Idea de implementacion

La idea es construir un sistema con dos componentes, una quemuestra informacion al usuario y la otra que se dedica a optimizar lasrecomendaciones hechas al usuario dada sus acciones.

El sistema decide mostrar o no la peticion hecha por el usuario segunlo que lo acerque mas a su objetivo.

El sistema optimiza su estrategia de recomendacion para que elusuario alcance su objetivo.

Modelo

Recordemos que un MDP es una tupla < S ,A,T ,R > donde

S es el conjunto de estados, que representan las diferentes situacionesque el agente recomendador se puede encontrar mientras interactuacon el usuario. Cada estado s ∈ S es una tupla < u, r > donde ucorresponde al estado actual del usuario y r es el estado actual delagente recomendador.

A es un conjunto de las posibles acciones del sistema. Este conjuntode acciones se relaciona con la polıtica. Diremos que una polıtica π esuna funcion π : S → A, en donde para s ∈ S indica que π(s) = a paraa ∈ A.

Modelo

T una funcion de transicion. Donde T (s, a, s ′) es la probabilidad determinar en el estado s ′ si ejecutamos a desde s.

R una funcion de recompensa. Donde R(s, a), asigna un valor escalarpor cada accion a ejecutada en s. Para efectos del problema,asumiremos recompensa negativa para cualquier estado no terminal yrecompensa positiva por terminar en el objetivo.

Como calculamos la polıtica

Reinforcement Learning al Rescate

Policy iteration

La idea del algoritmo de optimizacion es la siguiente, supongamos que elsistema esta en el estado S0, entonces dada una polıtica inicial arbitraria, elsistema decide ejecutar a0. En respuesta, el usuario elige alguna accion loque lleva al sistema al estado S1 y recompenza al agente con r0. Es intuitivoquerer encontrar la polıtica π tal que se maximize la recompenza.

Policy iteration

Definimos que el valor de un estado s bajo la polıtica π, V π(s), como larecompenza acoumulada esperada, cuando el agente comienza en s y sigueπ despues. Entonces tenemos que:

V π(s) = R(s, π(s)) + γ∑s′∈S

T (s, π(s), s ′)V π(s ′)

Donde s ′ ∈ S es el siguiente estado alcanzado, cuando el agente toma laaccion π(s) en s. Entonces, para calcular el π∗ optimo se reduce al siguienteproblema de optimizacion:

V π∗(s) = maxπE (∞∑t=0

γtRt)

Policy iteration

V π∗(s) = maxaR(s, a) + γ∑s′∈S

T (s, a, s ′)V π∗(s ′)

π∗(s) = argmaxaR(s, a) + γ∑s′∈S

T (s, a, s ′)V π∗(s ′)

Recomendacion adaptativa

Con el modelo dado y una polıtica inicial arbitraria, el agente itera sobre lossiguientes pasos en cada ejecucion.

Evaluacion de la polıtica: se computa V π como lo senalamosanteriormente.

Mejora de la polıtica: se utiliza V π para mejorar la polıtica.

Estudio de un Caso

NutKing, es una empresa de viaje que quiere recomendar a sus turistascual serıa su plan de viaje ideal.

NutKing,utiliza un sistema recomendador conversacional basado enfiltrado colaborativo.

Nutking, imita lo que serıa una sesion de recomendacion tradicionalcon el agente de viaje.

Al comenzar, el usuario indica sus preferencias, estas son utilizadascomo restricciones para generar recomendaciones y guıar la busqueda.

Funcionamiento Nutking

Polıtica rıgida no adaptativa.

Baja aceptacion de las sugerencias 28%.

Posibilidad de mejora.

Como construimos el modelo MDP

Primero modelamos el sistema que interactua con el usuario, este consisteen cinco paginas P = {S ,QF ,R,T ,G} donde S es la pagina de inicio dondeel usuario inicia sesion, QF es el formulario para generar una consulta, T esla pagina de ajuste de busqueda R el resultado y G el objetivo. Un set deseis funciones de informacion F = {go, exec ,modq, acct, rejct, add}.

Figure: Modelo de funcionamiento

Figure: Diagrama de estados con las acciones del sistema

La funcion de recompenza es simple, es constante y negativa para cualquierestado no terminal y positiva para cualquier estado objetivo.

Evaluacion

Para evaluarlo se utilizaron usuarios simulados, donde se mejoraba lapolıtica con Policy Iteration. Esta simulacion de usuario corresponde a unusuario que comienza en S − go y esta en busqueda de un itemt = (v1, ..., vn). Donde v1, ..., vn son los valores usados por el usuario paraajustar la busqueda.

Modelo de comportamiento del usuario

Cuando el usuario esta en QF − exec , como modificara la queryactual. El usuario simplemente agrega a la query el siguiente valor delitem de prueba.

Cuando el sistema sugiere un ajuste de query, el usuario puede elegirT −modq, T − acct o T − rejct, el usuario acepta si alguna de lasfeatures esta presente en el item. Rechaza si la lista es mas pequenaque un threshold y ejecuta la query original. En cualquier otro casomodifica la query

El usuario agregara al carro si el item de test es encontrado en el topN de los items retornados por la query, sino optara por modificar laconsulta.

Aprendizaje de Polıtica

Se estimaron las transiciones de probabilidad con simulaciones aleatoriasde usuarios. Y despues se ejecuto iteracion de polıtica segun lo explicadoanteriormente.

Resultados

Se dejo que el algoritmo de evaluacion de polıtica corriera por 100 intentosy el algoritmo de iteracion por 10 iteraciones.

Transiciones

Figure: Transiciones para QF-execq

Politica optima

Figure: Polıtica optima para γ cte.

Polıtica optima

Figure: Polıtica optima para costo cte.

Conclusiones y Trabajo a futuro

El sistema efectivamente mejora las polıticas tomadas versus unsistema conversacional rıgido.

Se muestra que un sistema de recomendacion adaptivo es factibleutilizando MDPs.

Se debe probar este sistema con usuarios reales para ver siefectivamente se mejora la tasa de aceptacion.

Learning and adaptivity in interactive recommender systems

Documents

Transcript of Learning and adaptivity in interactive recommender systems

Master's Thesis: Recommender Systems for Live-Transmission in interactive Television

Personalized Recommender by Exploiting Domain based Expert ... · Incremental Collaborative Filtering Recommender system. B. Content-Based Recommender System Content based recommender

Adapting SME Learning Environments for Adaptivity

Model Adaptivity in Elasticity

Recommender Systems Recommender Systems

Personalization & Adaptivity

Recommender Introduction to Recommender Systems and ...

Interactive Visual Salesforce Analytics - MITssg.mit.edu/~krv/pubs/VarshneyRMSD_icis2012.pdf · Existing salesforce enablement solutions focus on recommender systems, client segmentation,

Interactive Recommender Systems with Netflix and Spotify

Achieving Adaptivity for OLAP-XML Federations

Subspace Condensation: Full Space Adaptivity for Subspace ...graphics.pixar.com/library/SubspaceCondensation/paper.pdf · Subspace Condensation: Full Space Adaptivity for Subspace

Mining and Adaptivity in Automated Teller Machines€¦ · A typical Automated Teller Machine (ATM) ©2012MujtabaandMahmood,licensee InTech. ... Mining and Adaptivity in Automated

122 - Understanding Adaptivity Methods

Recommender Systems Handbook - Home - Springer978-0-387-858… · · 2017-08-28Printed on acid-free paper ... interacting with recommender systems, recommender sys- ... 1.6 Recommender

Goal-Oriented Error Estimation and Adaptivity for the ...users.ices.utexas.edu/.../2001-004.goal-oriented_error_CMWA.pdf · Adaptivity for the Finite Element Method ... The objcct

Interactive RecommenderSystems in Mobile Scenarios · Recommender Systems •Data-driven destination recommender systems, with Linus Dietz •Combine multiple travel regions to recommend

TopicLens: An Interactive Recommender System based on …holl/pubs/Devendorf-2012-InterfaceRS.pdf · TopicLens: An Interactive Recommender System based on Topical and Social Connections

Interactive Explanations in Mobile Shopping Recommender ...ceur-ws.org/Vol-1253/paper3.pdf · in mobile recommender systems. 3. DESIGNING THE PROTOTYPE. Our system aims at o ering

INTRODUCTION TO RECOMMENDER - Leuphana … · SYSTEMS AND THEIR EVALUATION Olga ... recommender systems Introduction Properties of recommender ... 11 Tutorial: Recommender Problems

TFR: A Tourist Food Recommender System based on Collaborative Filtering · 2018-08-14 · Artificial Intelligence, Recommender System Keywords Food Recommender System, Tourist Recommender