Ingeniería de funciones de encuadre para el aprendizaje automático: un modelo generativo de la probabilidad de venta de viviendas

May 10 2022
Foster Provost & Panos Ipeirotis TL;DR: A menudo escuchamos sobre la regla 80/20 en el aprendizaje automático: el 80 % del trabajo consiste en ordenar los datos correctos. Tener en mente un modelo generativo o causal para la "comprensión empresarial" nos ayuda a guiarnos a través de la vasta jungla de datos.

Foster Provost y Panos Ipeirotis

TL;DR: A menudo escuchamos sobre la regla 80/20 en el aprendizaje automático: el 80 % del trabajo consiste en ordenar los datos correctos. Tener en mente un modelo generativo o causal para la "comprensión empresarial" nos ayuda a guiarnos a través de la vasta jungla de datos. Tal modelo puede dirigir nuestras inversiones en adquisición de datos e ingeniería de características, para generar retornos positivos sobre estas inversiones (monetarias o de ingeniería) .

Tenga en cuenta que en esta publicación de blog, hablaremos sobre las características que podrían diseñarse para estimar la probabilidad de venta de una casa. No estamos diciendo que realmente usemos ninguna de esas características (ni que debamos usar ninguna de ellas).

Ingeniería de características y adquisición de datos

Las discusiones contemporáneas sobre el aprendizaje automático (ML) a menudo se centran en los éxitos en la comprensión de imágenes, el procesamiento del lenguaje natural y los juegos. Estas aplicaciones pueden darnos una visión sesgada de la ingeniería de características. En particular, se trata de aplicaciones en las que es necesaria la ingeniería de funciones, ya sea manualmente o mediante arquitecturas y algoritmos de aprendizaje automático complejos. Sin embargo, en la mayoría de los casos, para estas aplicaciones, todos los datos necesarios están presentes : el tablero de juego actual, la imagen en sí, el pasaje de texto.

Muchas aplicaciones comerciales no presentan esta característica; no tenemos todos los datos relevantes o útiles cuando comenzamos nuestro trabajo. Parte del trabajo de hacer aprendizaje automático es decidir qué datos usar o qué datos adquirir, posiblemente a un costo: un costo monetario, un costo de análisis, un costo de ingeniería o todos esos . Para este tipo de aplicación, es crucial asegurarse de no caer en la trampa de pensar en el aprendizaje automático como "explotación de datos".

" Crear los datos" es a menudo donde debemos comenzar.

Pensemos en los datos como un activo del que nos gustaría (intentar) obtener valor a través del aprendizaje automático. Ver los datos como un activo puede cambiar nuestra perspectiva: al igual que con otros activos, ya tenemos algunos de los que posiblemente podríamos obtener valor ("retorno"). Pero también podemos invertir en activos que actualmente no tenemos. Entonces tenemos un subproblema que resolver: ¿en qué datos debemos invertir? ¿Podemos (de alguna manera) estimar que obtendremos suficiente retorno de una nueva fuente de datos, para compensar el costo en el que incurriremos para adquirirla y diseñar funciones a partir de ella?

Modelos conceptuales y modelos de aprendizaje automático

El aprendizaje automático generalmente se usa para construir "modelos" que estiman alguna cantidad objetivo de interés. Por ejemplo, nuestras primeras recomendaciones de crecimiento comercial en Compass CRM se basan en un modelo que estima la probabilidad de que cada propietario venda su casa. Estos son modelos estadísticos de la relación entre algunas variables predictoras (características) y una variable objetivo (a menudo, un resultado aún no conocido). Para nuestro modelo de probabilidad de venta (LTS), utilizamos características de la vivienda y del propietario (llamémosla vivienda+propietario) para estimar la probabilidad de que el propietario venda la vivienda en un futuro próximo.

Las mejores prácticas para resolver problemas con el aprendizaje automático incluyen invertir un esfuerzo significativo en la comprensión del fenómeno que se está modelando, especialmente para guiar la selección, la ingeniería y la inversión en los datos que se utilizarán para la predicción. Los practicantes de ML llaman vagamente a esto "ingeniería de funciones".

Idealmente, la ingeniería de características debería basarse en alguna teoría, un modelo conceptual , de qué cantidades deberían estar correlacionadas con la cantidad que se predice y por qué . Más profundamente, debe basarse en un modelo conceptual del proceso de generación de datos y los impulsores reales (causales) del fenómeno que se modela y la cantidad que se estima. (Esto no quiere decir que el aprendizaje automático aquí esté haciendo modelos causales, sino que deberíamos tener un modelo del proceso causal en nuestras cabezas cuando estamos diseñando características y construyendo modelos). Estos modelos conceptuales, diferentes de los modelos estadísticos que construiremos a partir de los datos, luego se puede usar para informar la ingeniería de características.

Aquí hay una imagen del modelo que impulsó nuestra ingeniería de características:

Los modelos causales del proceso de generación de datos pueden ser muy complejos, pero incluso las aproximaciones simplificadas pueden ayudar a guiar el proceso de ingeniería de características. A continuación, exploraremos un modelo causal complejo para los impulsores de la probabilidad de venta de los propietarios de viviendas . El modelo completo, representado arriba, es complejo, pero lo analizaremos sistemáticamente antes de armarlo todo. Después de hacer eso, el modelo general debería ser comprensible.

Un modelo conceptual de las influencias en la probabilidad de venta

Uno de los marcos más comunes e intuitivos para modelar causas y efectos son los modelos gráficos, donde las cantidades en el mundo se visualizan mediante nodos en un gráfico y las influencias causales directas se representan mediante bordes dirigidos en el gráfico.

Las influencias de más alto nivel en la probabilidad de vender

La siguiente figura presenta un modelo gráfico que muestra los cinco factores de más alto nivel que influyen en la probabilidad de venta. Desarrollaremos estos factores a continuación, pero primero consideremos esta visión de alto nivel.

Factores de alto nivel que influyen en la probabilidad de venta (LTS) de un propietario. Los términos U(.) son utilidades, es decir, el valor multifactorial que obtienen los propietarios. (“Multifactorial” significa más allá del valor monetario estricto de la vivienda en el mercado). Los términos son: U(vivienda), U(otras viviendas que el propietario puede pagar), Asequibilidad de la vivienda actual, Inversiones/usos alternativos de equidad en el hogar y resistencia al cambio.

Repasemos estos cinco factores.

  • El primer factor es la “utilidad” de la vivienda . “Utilidad” es un término de la economía que encapsula todos los diferentes tipos de valor que uno obtiene de algo. Usamos "utilidad" aquí en lugar de solo "valor", para resaltar el valor no monetario de una casa. Por ejemplo, es particularmente conveniente para los propietarios ir al trabajo (en diferentes direcciones); también está cerca de la escuela de niños; y tiene fácil y rápido acceso a las mejores rutas de ciclismo de carretera de la zona. Todos son muy valiosos para algunas personas (alta utilidad), pero es posible que no se reflejen necesariamente en el valor monetario de la casa.
  • El segundo factor que influye en la probabilidad de vender es la utilidad de otras viviendas que el propietario puede pagar . Es posible que la casa no se adapte realmente a las necesidades y deseos del propietario, pero es posible que no pueda pagar una casa que se adapte mejor. En ese caso, es posible que no tengan una alta probabilidad de vender. Por otro lado, si su situación financiera ha cambiado notablemente para mejor, y los propietarios ahora pueden pagar una casa que tiene una mayor utilidad, entonces será más probable que vendan.
  • El tercer factor es la asequibilidad de mi casa actual . La casa puede tener una gran utilidad, pero el costo de la hipoteca y el mantenimiento pueden hacerla inasequible. Esto puede deberse a cambios en el estado del propietario de la vivienda, porque la compra no fue bien pensada.
  • El cuarto factor es si existen mejores formas de invertir el capital de la vivienda . Alternativamente, el propietario puede querer reducir un poco el tamaño y utilizar los fondos para otros fines (invertir en una casa de vacaciones, iniciar un nuevo negocio, viajar por el mundo, …).
  • Finalmente, el quinto factor resume que diferentes personas tienen diferentes resistencias inherentes al (o amor por) el cambio , y la resistencia al cambio puede cambiar , según las circunstancias. Por ejemplo, los eventos de la vida como el matrimonio y la jubilación no solo cambian los servicios públicos de viviendas específicas, sino que también modifican la resistencia o el deseo de las personas por otros cambios, incluido el cambio de vivienda. Además, es posible que podamos reducir la resistencia al cambio al reducir la incertidumbre de la información, brindando ejemplos de alternativas que son claramente mejores que el statu quo actual.

¿Qué influye en las influencias?

La belleza del modelo de alto nivel que acabamos de analizar es que es simple y muy intuitivo, y también sugiere de inmediato posibles características para adquirir o diseñar, como se ilustra arriba. Sin embargo, su simplicidad también tiene un inconveniente. No es tan útil para ayudarnos a ser exhaustivos: si usamos esto para hacer una lluvia de ideas sobre posibles funciones, ¿qué tan seguros estaríamos al final de no perder categorías completas de funciones importantes?

Afortunadamente, el marco del modelo gráfico nos permite abordar esto de manera elegante, al preguntar "recursivamente": ¿qué influye en las influencias? ¿Podemos tomar cada uno de los cinco factores de alto nivel y expandirlo, extrayendo tantas dimensiones de influencia como podamos?

¿Qué hace que una casa sea más o menos valiosa para su propietario?

Tomemos el primer factor y ampliémoslo. La siguiente figura muestra cinco impulsores principales de la utilidad de la vivienda para el propietario. Las cinco categorías de impulsores de la utilidad de la casa de los propietarios son: Las características de la casa y el vecindario, los intereses de los propietarios, las necesidades familiares/personales, las necesidades profesionales (como una oficina en casa) y el valor que los propietarios le dan a la vivienda. novedad _ Estos factores interactúan entre sí, lo que se indica con la x en el círculo. Por ejemplo, las necesidades familiares o profesionales están más o menos satisfechas por las características de la casa y el vecindario.

La utilidad de la vivienda para el propietario y los factores que la influyen. La x en el círculo indica que estos factores interactúan entre sí. Por ejemplo, las necesidades familiares y personales son satisfechas en mayor o menor medida por las características del hogar/barrio. En algunos casos, estos tienen otros factores que los influyen y que vale la pena mencionar. Por ejemplo, las necesidades particulares de la familia son impulsadas significativamente por la composición familiar (o los planes al respecto).

En algunos casos, estos factores del siguiente nivel tienen otros factores que los influyen y que vale la pena mencionar. Por ejemplo, las necesidades familiares están influenciadas por el estado civil y la composición familiar. En el extremo, alguien hereda una casa y no tiene ninguna utilidad para la casa más allá de su valor monetario. En ese caso, la probabilidad de venta es casi segura.

Entonces, podemos imaginar muchas características diferentes que podríamos diseñar: tamaño de la casa, cantidad de habitaciones, distrito escolar, el propietario acaba de cambiar de trabajo, el propietario es ciclista, etc.

La utilidad de una casa también cambia cuando el propietario cambia de trabajo. ¿Podría un ingeniero diseñar características para capturar este cambio en la utilidad? Posiblemente sí, ya que ciertas empresas de terceros brindan información sobre los consumidores que cambian de trabajo.

Pensar en características de ingeniería como esta inmediatamente pone de manifiesto el hecho de que es posible que no tengamos datos sobre muchas de las cosas que discutiremos a lo largo de esta publicación. Sin embargo, es posible que podamos adquirir dichos datos, incurriendo en algunos costos en el proceso. Por ejemplo, según el estado, las presentaciones de matrimonio a menudo forman parte del registro público.

¿Qué hace que otras casas sean más o menos valiosas para su propietario?

Ok, tomemos el segundo factor en el modelo de alto nivel y ampliémoslo. La siguiente figura amplía la “Utilidad de otras viviendas que el propietario puede pagar”.

La utilidad de otras viviendas que el propietario puede pagar se ve afectada principalmente por las otras viviendas que el propietario puede pagar o espera poder pagar, que es una función de la riqueza y los ingresos del propietario. Para muchos propietarios de viviendas, su principal fuente de riqueza es el valor líquido de sus viviendas.

La utilidad de otras viviendas que el propietario puede pagar se ve afectada principalmente por las otras viviendas que el propietario puede pagar o espera poder pagar, que es una función de la riqueza y los ingresos del propietario. Por ejemplo, en la población de propietarios de viviendas, la riqueza de una persona probablemente se correlacione fuertemente con el valor de su vivienda. De hecho, para muchos propietarios, su principal fuente de riqueza es el valor líquido de sus viviendas. Además, la riqueza generalmente aumenta con los años, y esto puede correlacionarse moderadamente con el tiempo que el propietario ha estado en el hogar o con la edad del propietario (si está disponible). Otra fuente potencial de información es un evento sobre un aumento repentino de la riqueza: una gran promoción, la venta de una empresa, una oferta pública inicial, etc. Las características diseñadas a partir de eventos de riqueza podrían ser bastante predictivas de las ventas de viviendas posteriores.

¿Qué evita que un dueño de casa quiera vender a pesar de tener una utilidad aparentemente mejor?

Diferentes propietarios tienen diferentes actitudes psicológicas hacia el cambio. El valor acumulado de la vivienda en sí mismo puede generar algunos de esos efectos, como el temor de perderse algo si los amigos y vecinos están sacando provecho cuando el mercado valora mucho las viviendas.

Por último, la probabilidad de venta depende de la resistencia inherente al cambio del propietario de la vivienda, que se ve afectada por diversos efectos psicológicos. Un impulsor clave de tales efectos psicológicos es la equidad en el hogar (recuerde la discusión anterior sobre el miedo a perderse, como ejemplo). Por lo tanto, el valor acumulado de la vivienda podría ser una característica clave en un modelo de probabilidad de venta, y podríamos pensar en diseñar características más complejas basadas en el valor acumulado de la vivienda.

¿Puede un agente inmobiliario o una plataforma afectar la probabilidad de venta de un propietario?

Los agentes inmobiliarios y las plataformas inmobiliarias pueden afectar la probabilidad de venta de un propietario, al revelar la disponibilidad de viviendas de alta utilidad y también al ayudarlo a comprender sus propias "funciones de utilidad".

Un último factor que afecta la probabilidad de que los propietarios vendan sus casas es si saben que existen viviendas alternativas que les darían una mayor utilidad. Por lo tanto, los agentes inmobiliarios y las plataformas tecnológicas inmobiliarias bien diseñadas deberían poder influir por sí mismos en la probabilidad de venta de un consumidor, revelando la disponibilidad de viviendas que proporcionarían a las personas una gran utilidad y también ayudándoles a comprender su propia "utilidad". funciones.”

Una profecía autocumplida: Agentes e IA

Si bien la última parte no es directamente una "característica" para el modelo de probabilidad de venta, sí sugiere que la idea misma de proporcionar recomendaciones a los agentes inmobiliarios puede ser autocumplida: nuestro modelo generativo predice que los agentes que hablan con personas que probablemente vender puede actuar para aumentar su probabilidad de vender! (Esta fue definitivamente la experiencia de su autor: una vez que comenzamos a trabajar con nuestro agente para explorar la posibilidad de comprar casas nuevas, nos entusiasmamos cada vez más con la perspectiva de comprar una casa nueva).

Más allá de la ingeniería de características, este último punto tiene implicaciones para la relación entre las plataformas/agentes de bienes raíces residenciales y el bienestar general del consumidor . El modelo de aprendizaje automático es simbiótico con los agentes, que se convierten en parte integral del proceso. Los agentes que interactúan activamente con la plataforma terminan dando forma a resultados que son mejores de lo esperado solo por la IA.

© Copyright 2021 - 2022 | unogogo.com | All Rights Reserved