Mostrando entradas con la etiqueta experimentos. Mostrar todas las entradas
Mostrando entradas con la etiqueta experimentos. Mostrar todas las entradas

martes, 1 de marzo de 2016

Cómo medir la importancia de los bots en las campañas de marketing

Anuncios sociales y clics falsos: ¿Verdad o mito?
Andrew Tate - Adespresso



¡Los clics de Facebook son falsos! ¡Twitter está lleno de robots! ¡Esta mujer es de donde provienen todos los clics!

Usted ha leído todas estas afirmaciones sobre el tráfico falso en toda la web, normalmente de algún anunciante descontento que gastó cientos de miles de dólares en una campaña publicitaria sólo para descubrir que no era la panacea para todos sus problemas.



Hemos leído todas estas quejas, así, y que simplemente no suena verdadero. Sabemos que los anuncios de Facebook pueden funcionar muy bien, por lo que cada vez que leemos estos artículos siempre estamos escépticos y queremos ver los números detrás de estas campañas. Por supuesto, los anunciantes que están fallando no quieren ser examinadas por lo que no liberar sus datos.

Por lo tanto, salimos y nos dieron nuestra propia.

Esta semana hicimos lo que mejor hacemos aquí en AdEspresso-nos encontramos con un experimento para probar de una manera controlada por datos si Facebook, Twitter y Linkedin son realmente todos los clics falsos inútiles y sólo de conducción.

Los resultados nos sorprendieron tanto como te van a sorprender!

Nuestra configuración experimental

El experimento en sí era tan simple como se podría conseguir. Decidimos hacer público un servicio y promover nuestro post viejo y muy exitosa que detalla por qué nunca se debe comprar me gusta de Facebook.

Nuestro experimento era la siguiente:
  • Canales: 3-redes de Facebook, Twitter, Linkedin y sociales
  • Presupuesto: Un máximo de $ 200 en cada red social
  • Marco de tiempo: 1 semana
  • Localizaciones: 2 países: Estados Unidos y Canadá
  • Orientación: Los usuarios con un fuerte interés en los medios sociales
  • Términos de oferta: Por defecto para cada red (dejarlos trabajar su magia)
Cada uno de los anuncios para cada uno de los canales tenían la misma imagen. Aunque cada red tiene diferentes límites para el texto, sino que también tuvo como objetivo mantener la copia lo más consistente posible entre los canales.
Estos fueron los anuncios que utilizamos:

Linkedin



Facebook




Twitter



Cada anuncio relacionado con Bit.ly y luego fue redirigir a nuestro sitio web, el establecimiento de las etiquetas UTM en el URL para que Google Analytics sabía donde todo el tráfico venía. De esta manera realizamos el seguimiento del número de clics a través de múltiples fuentes y fueron capaces de comparar y contrastar las métricas en múltiples etapas.

Terminamos con 4 fuentes de datos:

  • El canal de métricas en el número de clics de las métricas internas de Facebook, Twitter, Linkedin y dijo que recibimos en cada anuncio.
  • Bit.ly-El número de veces que cada URL bit.ly específica Facebook, Twitter o Linkedin fue llamado.
  • Google Analytics-El número de visitas que teníamos de cada uno de Facebook, Twitter o Linkedin según nuestro interior panel de Google.
  • Las bitácoras de nuestra web server- Los datos en bruto que muestran cada visita a nuestro sitio de Facebook, Twitter y LinkedIn.


Advertencias obligatorias

Este es un pequeño experimento. Al otro lado de los 3 canales, que sólo pasamos $ 589, con todos los canales de mantenimiento dentro del máximo de $ 200. Es necesario tener en mente 2 cosas:

  • No tienen en cuenta estos números como un indicador de qué tan bien funciona cada canal. Esto se trata de clics falsos, no se trata de qué canal que debe utilizar. Correremos a un montón de experimentos en que en un futuro.
  • Con base en el tipo de contenido que está promoviendo y su público, verá resultados muy diferentes. Este es un experimento a pequeña escala. Si estábamos haciendo esto correctamente para investigar la eficacia de los diferentes canales, estaríamos probando el anuncio de imágenes, copiar y orientación, y nos gustaría poner más dinero en conseguir más tráfico.


Los resultados

OK, suficientes palabras, ahora a contar!

Estábamos buscando la respuesta a esta simple pregunta: ¿Estábamos inundados por los robots sin valor y verter nuestro dinero por el desagüe?

¡No! De hecho, encontramos lo contrario.

Esa es la respuesta simple. Aunque este fue un experimento a pequeña escala y los resultados no eran astronómicos, que en realidad terminamos recibir más tráfico de lo que pagamos! Se trata, sin la optimización de nuestra campaña, de profundizar en la orientación o estudios adicionales.

Así que vamos a empezar a buscar en los resultados.

Impresiones y de tarifas de clics 

Vamos a empezar desde el principio. Aproximadamente la misma cantidad se gastó en cada canal, por lo que el número de impresiones y clics generaron nuestros anuncios, de acuerdo con las métricas de cada canal individual?

FuentesImpresionesMétricas de canalCTRAcciones sociales
Facebook27,3332130.78%16 Likes, 4 Shares, 11 Comments
Twitter38,294990.26%10 Retweet, 2 Replies
LinkedIn5,674350.62%7 Social Actions
Llegamos con mucho el más impresiones de Twitter, que representan el 53,7% de todas las impresiones nuestros anuncios recibidos. Facebook recibió el segundo más con el 38,3% de las impresiones, y Linkedin era un distante tercer lugar, con sólo el 8% de todas las impresiones.




Sin embargo, nuestro Facebook anuncio ha recibido más del doble del número de clics recibidos nuestro anuncio Twitter, y más de 6 veces la cantidad de clics que el anuncio Linkedin consiguió. Por tanto, el porcentaje de clics (CTR) de Facebook fue la más alta en el 0,78%. Con sus pequeños clics búsqueda de sus pequeñas impresiones, Linkedin fue segundo con un CTR de 0,62%, y Twitter el tercer lugar distante esta vez con un CTR de 0,26%.




Aunque Facebook parecía haber obtenido buenos resultados con el mayor porcentaje de clics, que no era el objetivo del experimento. Queríamos ver si esos clics clics eran auténticos o falsos.

Así son todos los clics procedentes de los robots o haga clic en las granjas?

Motores de búsqueda y tráfico del servidor web

Para obtener información sobre todos estos clics falsos que necesitamos para empezar a buscar en nuestros propios registros del servidor web y al bit.ly.

FuenteMétricas de canalWebserver Clicks
Facebook213428551
Twitter99137273
LinkedIn3532101

Si trazamos estos datos, podemos empezar a ver lo que está pasando.



En el caso de Facebook y Twitter, Bit.ly está informando más clics recibidos de las métricas de canales internos. Lo que es más, nuestros propios registros del servidor informaron incluso más clics! En cada caso, los registros de nuestro servidor están reportando más de 2,5 veces la cantidad de clics que cualquiera de las métricas internas son.

Es todo lo que el tráfico adicional sólo los robots? Al echar un vistazo más de cerca a los registros del servidor, podemos empezar a que hay algunos robots de mezclado en el tráfico normal:

184.73.124.118 - - [06 / Nov / 2015: 04: 51: 25 +0100] "GET / r / LikesFb HTTP / 1.1" 200 1156 "-" "bitlybot / 3.0 (+ http: //bit.ly/) " 67.202.6.32 - - [06 / Nov / 2015: 04: 51: 25 +0100] "GET / r / LikesFb HTTP / 1.1" 200 1136 "-" "bitlybot" 46.236.24.52 - - [06 / Nov / 2015: 23: 37: 54 +0100] "GET / r / LikesFb HTTP / 1.1" 302 797 "-" "Mozilla / 5.0 (TweetmemeBot / 4.0; + http: // DataSift .com / bot.html) Gecko / 20100101 Firefox / 31.0 " 46.236.26.103 - - [06 / Nov / 2015: 23: 37: 54 +0100] "GET / r / LikesFb HTTP / 1.1" 302 797 "-" "Mozilla / 5.0 (TweetmemeBot / 4.0; + http: // DataSift .com / bot.html) Gecko / 20100101 Firefox / 31.0 " 209.133.111.215 - - [07 / Nov / 2015: 00: 16: 30 +0100] "GET / r / LikesFb HTTP / 1.1" 302 841 "-" "rogerbot / 1.0 (http://moz.com/help/ Pro / que-es-rogerbot-, rogerbot-crawler+shiny@moz.com) "

OK, sí existen bots. Podemos ver desde DataSift (echando un vistazo en la página 330 veces!), Bitlybot de Bit.ly, y rogerbot de nuestros amigos de Moz.

Comprobará manualmente cada entrada individual en los registros del servidor para identificar los robots, o al menos esos robots que son lo suficientemente buenos para identificarse a sí mismos como los robots. En total fueron 12 los robots individuales que estaban subiendo nuestra página. Podría ser que hubiera más de que no se identificaron, programas maliciosos que se disfrazan de los navegadores habituales. Una vez que hemos eliminado los robots, estos fueron nuestros números de tráfico interno:

Métricas de canalBit.lyWebserver ClicksWebserver Clicks (sin bots)IPs únicosClase C únicos
Facebook213428551381346346
Twitter99137273157154152
LinkedIn3532101353232

Esto hace que el tráfico a un nivel más razonable. Las cifras de tráfico sans los robots se parecen mucho a los clics de bit.ly, y parece que todo el tráfico no-bot venía de direcciones IP únicas.



Esto es increíblemente importante. Cuando vemos que la gran mayoría de nuestro tráfico venía de direcciones IP únicas que significa que podemos empezar a tener la confianza de que se trata de tráfico real. Al menos el 90% de nuestro tráfico proviene de estas direcciones IP únicas.

También nos fijamos en las direcciones únicas de clase C.

Una dirección IP es el siguiente: 192.196.0.1 compuesto de 4 números. Puede averiguar su dirección IP simplemente buscando en Google "¿cuál es mi IP?" Clase C son los 3 primeros números de esa dirección IP (192.196.0).

¿Por qué nos importa esto?

Se debe a que los dispositivos que están conectados al mismo router o servidor, y por lo tanto en la misma habitación u oficina es probable que comparten los 3 primeros números, y sólo el cuarto número cambiará. El primer ordenador será 192.196.0.1, 192.196.0.2 el segundo dispositivo, y así sucesivamente. Estas direcciones IP secuenciales son exactamente lo que cabría esperar para ver los robots de una granja o en el punto donde numerosos equipos están conectados a la misma red local.

Esto es exactamente lo que no vemos.

Debido a que la mayor parte de nuestro tráfico venía direcciones IP diferentes que podemos estar muy seguros de que este era el tráfico natural. La posibilidad de que esos eran falsos clics, procedentes de los robots o haga clic en granjas es increíblemente delgado.

Google Analytics


Una queja constante que oímos es que los números de Google Analytics es mucho más bajo que los informes de Facebook. Pero eso no es lo que hemos encontrado en nuestro experimento.



Aquí están los números de nuevo:

Métricas de canalSesiones GA Tasa de rebote GATiempo en sitio GA
Facebook21334880.75%1:26
Twitter9910684.91%1:26
LinkedIn352889.29%0:45

Con Facebook y Twitter que de hecho vimos más tráfico en Google Analytics que en un principio que vimos en las métricas de los canales internos. Con Facebook vimos 60% más de tráfico en Google Analytics que en el mismo Facebook. Sólo con Linkedin hizo vemos pocas sesiones Google Analytics que clics reportados en las métricas internas.



Con la única excepción de LinkedIn, Google Analytics está informando a más visitantes que la publicidad son plataformas. Esto es exactamente lo contrario de lo que todo el mundo piensa que ocurre. No se supone que es un gran fraude pasando, pero a medida que estos datos muestran, en todo caso Facebook y los otros canales de publicidad social carecen de informar de la cantidad de tráfico real que están enviando a su manera.

Al mirar el porcentaje de abandonos, que no es tan bajo como estamos acostumbrados, pero no son muy malas, y las tasas definitivamente bueno para un anuncio sin optimizar enviada a una entrada de blog en frío.



Lo que es más, estos visitantes no están dejando en tan sólo unos segundos, como cabría esperar si fueran falsos clics. El tiempo promedio en el sitio de Facebook y Twitter fue más de un minuto (1:26), lo que sugiere que las personas estaban realmente leer el post.



¿Por qué son todos nuestros numbers-bit.ly, nuestro servidor web, Google Analytics-mucho más altos que los reportados por las métricas de canales internos?

Debido a que estos canales ya están haciendo un buen trabajo de filtrar los números de bots. Todos los robots cual vimos que se arrastran sobre nuestros registros del servidor web ya habían sido descontados por las métricas de publicidad social. Ellos no son perfectos, pero entienden que las personas no quieren contar los robots y los clics fraudulentos como el tráfico real, por lo que se va a deshacer de ellos de sus números.

Usted, como el anunciante, ¿no se cobrará por lo que Facebook, Twitter y Linkedin piensa que son falsos clics y los robots.

Sin embargo, ese no es el final de la historia. Motores de búsqueda por lo general no son contados por Google Analytics, sin embargo, que el sistema está reportando más sesiones que Facebook.

¿Por qué?

Cosas asombrosas suceden cuando se comparte un gran contenido

Los números que se ven si Facebook, Twitter y Linkedin son el número de clics que específicamente se han generado por los anuncios, y son los clics que en realidad estás pagando.

Pero una vez que se publique contenido a una red social repentinamente su alcance crece mucho más allá de ese anuncio inicial. Si el anuncio es bueno, y es igual de importante, si el contenido es bueno, la gente empieza a recibir el anuncio, hacer comentarios al respecto, y compartirlo.

La historia promovimos, un estudio sobre los gustos falsos, es uno de nuestros nuestros principales que realizan las entradas del blog, y los usuarios en cada una de las redes sociales comprometidos con él, compartirlo con sus amigos y alrededor de sus redes, generando tráfico orgánico gratuito.

¿Cómo sabemos esto? A partir de este gráfico:



Incluso después de la campaña había terminado, cuando no había más anuncios que hay en cualquiera de las redes sociales, Facebook y Twitter siguen enviando más de 75 visitantes a la página. Estos son usuarios que han visto que compartió anteriormente, bookmarked adelante y creía que leerlo más tarde.


Usted no quiere clics, usted quiere conversiones

Todas estas personas se quejan de clics falsos no viene al caso. Usted no debe preocuparse por los clics falsos, o de otro tipo. Incluso el más genuino de clics son inútiles si no se convierten.

Usted debe estar utilizando la publicidad social para hacer crecer su negocio, y sólo se puede hacer eso si las personas que visitan su sitio a través de estos sitios se convierten en clientes.

Lo mismo hizo estos anuncios sociales conducen a conversiones?

SourceChannel MetricsNewsletter SignupseBook DownloadsAdEspresso Trials
Facebook2132284
Twitter99420
LinkedIn35200
Sí.

Facebook fue el canal más efectivo, con más del 15% de todos los visitantes de conversión, o bien suscribirse al boletín, la descarga y libro electrónico, o en 4 casos, a partir de un ensayo con AdEspresso. Eso es 34 personas se movieron más abajo en nuestra embudo de una simple campaña publicitaria sin optimizar, Facebook.



Recuerde que no estábamos promoviendo AdEspresso, o conducir el tráfico a una página de destino -los visitantes iban simplemente a una entrada en el blog. A partir de ahí, un total de 10 visitantes fue más allá y descargar uno de nuestros libros electrónicos, y un total de 28 terminó como suscriptores del boletín.

Esto es lo que es importante. No de los clics falsos, no cualquier clics-sino conversiones.

Conclusión

Este experimento demuestra concluyentemente 1 cosa:

Los clics falsos no son el problema dramático gente demanda.

Sí, cuando se utiliza la publicidad social, algunos bots o clics falsos obtendrán a través de la red y que va a terminar pagando por algunas de ellas. Pero no es en absoluto un problema tan grande como todos los teóricos de la conspiración van a hacer creer.

Entonces, ¿por qué se perpetúan este mito? En algunos casos es porque no entienden realmente cómo funciona esta publicidad, han cometido errores y quieren culpar a nadie más que a sí mismos. Otros comentaristas no exactamente lo que están haciendo y están utilizando el tema para atraer tráfico a sus propios mensajes que le dice lo terrible que es el problema.

Usted no debe preocuparse por los clics falsos. Por un lado, ellos no son el problema de la gente piensa, y dos, lo que realmente debe ser una preocupación son las conversiones y el retorno de la inversión, retorno de la inversión. Si los clientes que vienen a través son la conversión y que son capaces de hacer dinero de clientes en ese canal, entonces está trabajando. Si no es así, ya sea a causa de clics falsos, malos anuncios, o no llega eficazmente entonces usted necesita para dejar el canal o mejorar su campaña.

Si funciona, bombear más dinero en ese canal, no busca a otro canal que funcione para usted. Pero no echarle la culpa a los clics falsos!

La Universidad AdEspresso

Este es el final de nuestro primer estudio de la Universidad AdEspresso. Cada mes Universidad AdEspresso que va a correr experimentos mirando todos los aspectos del marketing social, desde si los clics son falsos, a la frecuencia con que debe ejecutar su campaña, a lo que pujar para su uso.

Los resultados serán publicados en la Universidad AdEspresso 1 mes antes de que aparezcan en este blog, dando a los miembros de la Universidad de acceso anticipado a los mejores recursos en línea para mejorar su marketing a social.

Cada mes vamos a gastar $ 1.000 a ejecutar estas pruebas y encontrar respuestas. Nos asociaremos con uno de nuestros miembros de la Universidad, de ejecutar las pruebas con ellos, dar consejos, y la promoción de su negocio.

Por sólo $ 19 por mes, los miembros de la Universidad AdEspresso tendrán acceso temprano a todos estos experimentos, junto con una gran cantidad de cursos, herramientas y ejemplos para impulsar su comercialización social y hacer crecer sus negocios.

jueves, 5 de marzo de 2015

10 experimentos para probar tu emprendimiento

10 experimentos para probar su hipótesis de emprendimiento David Teten - Entrepreneur



Usted sabe que una nueva idea ha ganado el dominio cuando se convierte en prácticamente un cliché. Esto es lo que he visto suceder con el "lean startup", una filosofía de la visualización de su puesta en marcha como un experimento científico en busca de un modelo de negocio. Este concepto comenzó como una idea nueva y luego se convirtieron en personas tan populares ahora consideran que es el sentido común. A medida que el socio de la firma VC ff Venture Capital, yo soy una de esas personas que asesora regularmente a nuestra cartera de empresas a pensar creativamente acerca de cómo probar sus supuestos operativos. Pero el reto es: ¿Qué se puede ejecutar experimentos para poner a prueba sus hipótesis? A continuación se presentan 10. Para estructurar sus experimentos, sugiero utilizar la Javelin Experiment Board.

Paso I: Explorar el problema y el mercado

1. Blogueé públicamente sobre lo que estás haciendo. Esto le ayuda a conseguir cualitativa, la retroalimentación personal, que debe informar a la retroalimentación cuantitativa (es decir, los resultados mensurables y métricas) que se reúnen después. Además, debe incluir las entrevistas cara a cara con los clientes (leer estos consejos rápidos para entrevistas efectivas con los clientes).

2. Haga preguntas abiertas sobre Quora y otras herramientas de discusión en línea. Escuche lo que la gente tiene que decir. Muchos consumidores quieren proporcionar información, pero sólo necesitan que se le pregunte. Saltar en un Q & Un sitio como Quora o foros como Reddit o uno específico para su industria y empezar a hacer preguntas. Usted puede comenzar con una investigación amplia como, "¿Cómo la gente a resolver este problema ...". Por ejemplo, "¿Qué herramientas de CRM son utilizados por el capital riesgo y los fondos de capital privado?" Esto va a surgir los competidores y clientes.

3. Cree encuestas y experimentar con incentivos monetarios y no monetarios. El envío de un cuestionario a su base de clientes es una gran manera de obtener retroalimentación y descubrir las necesidades. Por ejemplo, trate de evaluar la respuesta de incentivo como: "$ 100 de descuento en nuestro producto cuando por primera vez sale al mercado." Si la gente está deseosa de aplicar el descuento a un producto que ni siquiera existe todavía, es una validación adicional de la demanda del cliente.

4. Recoger pre-pedidos. Plataformas de crowdfunding como Indiegogo Kickstarter y han hecho mucho más fácil para medir la demanda del mercado para un producto o servicio. Mediante la descripción de las características del producto y ofrecerlo a las masas, los empresarios pueden tener una idea de cómo el mercado de fuera de la plataforma de crowdfunding respondería. Asimismo, la información instantánea y preguntas pueden ayudar a nuevas empresas descubren problemas potenciales y les permitirá corregirlos antes de escalar.

  5. Anuncios de corridas de prueba. Utilizar Google AdWords, Yahoo !, Bing y otras plataformas mediante la creación de anuncios que llevarán a los televidentes a una página solicitando suscripciones de correo electrónico y posiblemente pre-pedidos. Prueba de que los anuncios son más eficaces. (Por ejemplo, Tim Ferriss tituló su libro basado en las tasas de conversión de Adwords.). Y no sólo recolectar correos electrónicos. Intente también recoger datos en forma de una mini encuesta. Yo sugiero revisar QuickMVP, una herramienta todo-en-uno para la creación de páginas de lanzamiento, dirigir el tráfico a través de Google AdWords y el análisis de la demanda del cliente.

Paso II: Explorar la solución

6. Pruebe múltiples iteraciones de su sitio. Diseño y experiencia de usuario sin duda juegan un papel importante en cómo ve el consumidor de su puesta en marcha y su oferta. Así experimentar con él. Launchrock es un gran sitio para la construcción de páginas de lanzamiento y el análisis de los datos del usuario. O experimentar con otras campañas de pruebas A / B utilizando Optimizely. Éstos son ejemplos de lo que hace que una página de destino viral.

  7. Hable con usuarios reales de su producto beta. Los beta testers pueden potencialmente ser su salvavidas cuando el lanzamiento de un nuevo producto. Para que la gente interesada en poner a prueba su inicio, echa un vistazo a sitios web como Betali.st, Erli Bird y StartupLi.st, entre otros.

Paso III: Mercado

8. Analizar el uso del sitio. Pruebas de lo que las palabras obtener la mayor cantidad de golpes que pueden dar ideas sobre el mercado objetivo. Profundizar en Google Analytics, aprovechando seguimiento objetivo, información demográfica, el interés de segmentación y análisis de cohorte.

  9. Analizar que las campañas de marketing a aprovechar al máximo la tracción. Así como es necesario comprender sus usuarios finales, también es importante entender el comportamiento de las personas influyentes que tocan a sus usuarios finales. Hay varios de medios sociales herramientas de análisis por ahí que le pueden ayudar con esto, incluyendo Copromote y mular.

  10. Los programas de referencia de prueba con los incentivos monetarios y no monetarios. Programas de referencia puede ser una gran manera de adquirir nuevos clientes, mientras que mantener a los clientes actuales feliz.

 Un famoso ejemplo de un programa de referencia de éxito es Dropbox. La compañía fue inteligente y se utiliza un incentivo de dos caras para compartir. La persona que se inscribía en Dropbox a través de un enlace de referencia obtenía más espacio que a través de firmar normalmente, y la de referencia se pone espacio adicional también.

miércoles, 4 de diciembre de 2013

Ensayos alternativos a las pruebas A/B

Alternative to A/B Testing You Need to Try 
BY ABIGAIL TRACY

The method that has been a marketing staple might be replaced by the newer marketing method--experimental design.


In the marketing world, A/B testing has been a staple for many years. As you probably know, the idea is to change a product slightly so you have two versions--A and B--and then determine which version consumers prefer. But a recent Wired article questioned the efficacy of this esoteric marketing tool. It argued that A/B testing is limited and that experimental design might be a better marketing method. 
According to the Wired post, A/B testing works well when hundreds of different tests can be run at one time. But when the number of tests conducted is limited, the variance in the sample is not great enough and the statistical significance in the testing is meaningless. It added that in many cases it is also hard to identify which variables elicit a response from consumers--all problems experimental design might have a solution for. 
Experimental design works best with companies that market to a large group of customers--listing credit card companies, online retailers and telecommunications firms as good examples. 
So, what is experimental design? 
According to the story, experimental design uses “mathematical formulas use combinations of variables as proxies for the complexity of all the original variables," then it allows for adjustment based on responses to different variables. So what it does is increase the variance in marketing campaigns so as businesses can determine the best marketing campaign based on numerous changes and various combinations and then adjust to these more quickly. 
However, the article pointed out that experimental design must be accompanied by other changes in the company. For instance, companies must be able to reach the right groups of consumers for the testing, that employees are properly trained in the new method and that there is a process of decision making set up around the shift to experimental design. 
Inc.com

domingo, 1 de septiembre de 2013

Liderazgo natural en peces... y humanos

Los líderes nacen, no se hacen dice un estudio con peces
Un experimento para capacitar a los peces espinosos negritos para ser seguidores y peces tímidos para ser líderes produjo resultados inesperados

Por Shinnosuke Nakayama y The Conversation
Scientific American
¿Quién está a cargo aquí ? Los peces se adaptan
a nuevas funciones. 
Imagen: Shinnosuke Nakayama

Por Shinnosuke Nakayama, de la Universidad de Cambridge

En nuestra sociedad, no muchas personas tienen la suerte de tener un jefe ideales que les gustaría seguir fielmente por el resto de sus vidas. Muchos podrían incluso encontrar a su jefe egoísta y arrogante o se quejan de que no les hacen caso a sus opiniones.

Nosotros, los humanos empujamos el concepto de líderes y seguidores hasta el extremo, pero existen esos conceptos en todo el reino animal. Estos líderes y seguidores del mundo natural pueden ayudar a decidir si ese jefe impopular puede aprender a ser parte del equipo .

Líderes y seguidores se encuentran en muchos animales que viven en grupo, tales como peces, aves y primates. Vivir en grupo puede ofrecer muchos beneficios a los miembros del grupo, como el aumento de las posibilidades de encontrar alimento o evitar a los depredadores. A diferencia de algunos lugares de trabajo humanos, los grupos de animales saben que tienen que ponerse de acuerdo sobre dónde ir y cuándo ir allí con el fin de sacar el máximo provecho de la vida en grupo .

Los líderes comparten características comunes, por lo que son en cierta medida predecible. En los seres humanos, los líderes generalmente muestran puntuaciones más altas en ciertos rasgos de la personalidad, en particular extraversión. Del mismo modo, en los animales, las personas activas más audaces y tienden a encontrarse como líderes. Las teorías evolucionistas sugieren que la audacia y el liderazgo pueden coevolucionar a través de la retroalimentación positiva. Los individuos que obligan a sus preferencias sobre otros son más propensos a ser seguido, que a su vez estimula estos individuos para iniciar más a menudo .

Siguiendo a los peces
Esto da retroalimentación en los roles sociales diferenciados para los líderes y los seguidores de un grupo, como lo demuestran varios estudios experimentales. Parece, pues, que los líderes y seguidores nacen mediante la selección natural, y que no tienen ninguna posibilidad de llegar a ser un líder si has nacido como un seguidor. Pero nuestro trabajo con pez espinoso sugiere que mientras que los seguidores pueden no tener lo que se necesita para dirigir, los líderes pueden aprender a seguir .

En nuestro trabajo, hemos probado la naturaleza de líderes y seguidores utilizando pares de peces. Los espinosos son bien conocidos por mostrar diferencias individuales en audacia, como cuando se alimentan. Cuando salen de la cubierta segura a una zona de alimentación de riesgo, los peces más audaces son más propensos a iniciar el movimiento colectivo, mientras que los animales más tímidos tienden a seguirlos.

Inversión de roles
Nosotros obligamos a pares de peces a tomar papeles opuestos para ver si podían cambiar con un poco de entrenamiento. El pez tímido fue recompensado con una pequeña cantidad de comida cada vez que iniciaba el movimiento colectivo, con independencia de que se haya seguido el socio más audaz o no. El pez más audaz también fue recompensado cada vez que seguía el miembro más tímido, pero no cuando se salió de cobertura segura. De esta manera, entrenamos pares para intercambiar sus roles naturales y comparamos su comportamiento a las parejas que asumen sus funciones naturales.

Nuestra predicción es que los individuos audaces funcionarían mal cuando se vean obligados a convertirse en seguidores, debido a que son menos sensibles a la conducta de los demás en su función natural, mientras que las personas tímidas adoptarían el papel de líder con más facilidad. Sin embargo, los resultados fueron completamente opuestos: para los individuos tanto audaces como tímidos, la tendencia a liderar es mucho menos flexible que la tendencia a seguir. El pez audaz se adapta fácilmente a seguir, pero los peces tímidos no podían ser entrenados para conducir, incluso cuando aprendieron a dejar de seguir a los otros peces.

Nos enteramos de que los peces pueden aprender a seguir, pero luchamos para aprender a conducir, independientemente de su personalidad. Ciertos tipos de información pueden promover o inhibir la aparición de distintos tipos de personalidad en una población, pero aún está por verse si estos mecanismos de retroalimentación pueden explicar la diferente flexibilidad entre liderar y seguir .

La incapacidad de los peces para ajustar su tendencia a conducir tiene implicaciones interesantes para los grupos humanos. Estudios de psicología de grupo en humanos han demostrado que las diferencias en la extroversión dentro de un grupo pueden ayudar a que los líderes emerjan, lo que conduce a un mejor rendimiento del grupo. Nuestros pares de peces también mostraron un mejor desempeño de grupo en búsqueda de alimento cuando la diferencia de audacia fue mayor, pero sólo cuando los pares se mantuvieron en sus funciones naturales. Por el contrario, cuando los peces se vieron obligados a cambiar los roles, el rendimiento disminuyó debido a la debilidad del liderazgo de los peces tímidos. Así que cuando trabajamos en grupo, que podríamos aprender de los peces por apegarse a los roles en los que nos sentimos más cómodos, naturalmente, por el bien del equipo.

martes, 27 de agosto de 2013

Cómo nunca correr una prueba A/B...

How Not To Run An A/B Test





If you run A/B tests on your website and regularly check ongoing experiments for significant results, you might be falling prey to what statisticians call repeated significance testing errors. As a result, even though your dashboard says a result is statistically significant, there’s a good chance that it’s actually insignificant. This note explains why.

Background

When an A/B testing dashboard says there is a “95% chance of beating original” or “90% probability of statistical significance,” it’s asking the following question: Assuming there is no underlying difference between A and B, how often will we see a difference like we do in the data just by chance? The answer to that question is called the significance level, and “statistically significant results” mean that the significance level is low, e.g. 5% or 1%. Dashboards usually take the complement of this (e.g. 95% or 99%) and report it as a “chance of beating the original” or something like that.
However, the significance calculation makes a critical assumption that you have probably violated without even realizing it: that the sample size was fixed in advance. If instead of deciding ahead of time, “this experiment will collect exactly 1,000 observations,” you say, “we’ll run it until we see a significant difference,” all the reported significance levels become meaningless. This result is completely counterintuitive and all the A/B testing packages out there ignore it, but I’ll try to explain the source of the problem with a simple example.

Example

Suppose you analyze an experiment after 200 and 500 observations. There are four things that could happen:
Scenario 1Scenario 2Scenario 3Scenario 4
After 200 observationsInsignificantInsignificantSignificant!Significant!
After 500 observationsInsignificantSignificant!InsignificantSignificant!
End of experimentInsignificantSignificant!InsignificantSignificant!
Assuming treatments A and B are the same and the significance level is 5%, then at the end of the experiment, we’ll have a significant result 5% of the time.
But suppose we stop the experiment as soon as there is a significant result. Now look at the four things that could happen:
Scenario 1Scenario 2Scenario 3Scenario 4
After 200 observationsInsignificantInsignificantSignificant!Significant!
After 500 observationsInsignificantSignificant!trial stoppedtrial stopped
End of experimentInsignificantSignificant!Significant!Significant!
The first row is the same as before, and the reported significance levels after 200 observations are perfectly fine. But now look at the third row. At the end of the experiment, assuming A and B are actually the same, we’ve increased the ratio of significant relative to insignificant results. Therefore, the reported significance level – the “percent of the time the observed difference is due to chance” – will be wrong.

How big of a problem is this?

Suppose your conversion rate is 50% and you want to test to see if a new logo gives you a conversion rate of more than 50% (or less). You stop the experiment as soon as there is 5% significance, or you call off the experiment after 150 observations. Now suppose your new logo actually does nothing. What percent of the time will your experiment wrongly find a significant result? No more than five percent, right? Maybe six percent, in light of the preceding analysis?
Try 26.1% – more than five times what you probably thought the significance level was. This is sort of a worst-case scenario, since we’re running a significance test after every observation, but it’s not unheard-of. At least one A/B testing framework out there actually provides code for automatically stopping experiments after there is a significant result. That sounds like a neat trick until you realize it’s a statistical abomination.
Repeated significance testing always increases the rate of false positives, that is, you’ll think many insignificant results are significant (but not the other way around). The problem will be present if you ever find yourself “peeking” at the data and stopping an experiment that seems to be giving a significant result. The more you peek, the more your significance levels will be off. For example, if you peek at an ongoing experiment ten times, then what you think is 1% significance is actually just 5% significance. Here are other reported significance values you need to see just to get an actual significance of 5%:
You peeked...   To get 5% actual significance you need...
1 time2.9% reported significance
2 times2.2% reported significance
3 times1.8% reported significance
5 times1.4% reported significance
10 times1.0% reported significance
Decide for yourself how big a problem you have, but if you run your business by constantly checking the results of ongoing A/B tests and making quick decisions, then this table should give you goosebumps.

What can be done?

If you run experiments: the best way to avoid repeated significance testing errors is to not test significance repeatedly. Decide on a sample size in advance and wait until the experiment is over before you start believing the “chance of beating original” figures that the A/B testing software gives you. “Peeking” at the data is OK as long as you can restrain yourself from stopping an experiment before it has run its course. I know this goes against something in human nature, so perhaps the best advice is: no peeking!
Since you are going to fix the sample size in advance, what sample size should you use? This formula is a good rule of thumb:
n=16σ2δ2
Where δ is the minimum effect you wish to detect and σ2 is the sample variance you expect. Of course you might not know the variance, but if it’s just a binomial proportion you’re calculating (e.g. a percent conversion rate) the variance is given by:
σ2=p×(1p)
Committing to a sample size completely mitigates the problem described here.
UPDATE, May 2013: You can see this formula in action with my new interactive Sample Size Calculator. Enter the effect size you wish to detect, set the power and significance levels, and you'll get an easy-to-read number telling you the sample size you need. END OF UPDATE

If you write A/B testing software: Don’t report significance levels until an experiment is over, and stop using significance levels to decide whether an experiment should stop or continue. Instead of reporting significance of ongoing experiments, report how large of an effect can be detected given the current sample size. That can be calculated with:
Where the two t’s are the t-statistics for a given significance level α/2 and power (1β).
Painful as it sounds, you may even consider excluding the “current estimate” of the treatment effect until the experiment is over. If that information is used to stop experiments, then your reported significance levels are garbage.

If you really want to do this stuff right: Fixing a sample size in advance can be frustrating. What if your change is a runaway hit, shouldn’t you deploy it immediately? This problem has haunted the medical world for a long time, since medical researchers often want to stop clinical trials as soon as a new treatment looks effective, but they also need to make valid statistical inferences on their data. Here are a couple of approaches used in medical experiment design that someone really ought to adapt to the web:
  • Sequential experiment design: Sequential experiment design lets you set up checkpoints in advance where you will decide whether or not to continue the experiment, and it gives you the correct significance levels.
  • Bayesian experiment design: With Bayesian experiment design you can stop your experiment at any time and make perfectly valid inferences. Given the real-time nature of web experiments, Bayesian design seems like the way forward.

Conclusion

Although they seem powerful and convenient, dashboard views of ongoing A/B experiments invite misuse. Any time they are used in conjunction with a manual or automatic “stopping rule,” the resulting significance tests are simply invalid. Until sequential or Bayesian experiment designs are implemented in software, anyone running web experiments should only run experiments where the sample size has been fixed in advance, and stick to that sample size with near-religious discipline.

Further reading

Repeated Significance Tests

P. Armitage, C. K. McPherson, and B. C. Rowe. “Significance Tests on Accumulating Data,” Journal of the Royal Statistical Society. Series A (General), Vol. 132, No. 2 (1969), pp. 235-244

Optimal Sample Sizes

John A. List, Sally Sadoff, and Mathis Wagner. “So you want to run an experiment, now what? Some Simple Rules of Thumb for Optimal Experimental Design.” NBER Working Paper No. 15701
Wheeler, Robert E. “Portable Power,” Technometrics, Vol. 16, No. 2 (May, 1974), pp. 193-201

Sequential Experiment Design

Pocock, Stuart J. “Group Sequential Methods in the Design and Analysis of Clinical Trials,” Biometrika, Vol. 64, No. 2 (Aug., 1977), pp. 191-199
Pocock, Stuart J. “Interim Analyses for Randomized Clinical Trials: The Group Sequential Approach,”Biometrics, Vol. 38, No. 1 (Mar., 1982), pp. 153-162

Bayesian Experiment Design

Berry, Donald A. “Bayesian Statistics and the Efficiency and Ethics of Clinical Trials,” Statistical Science, Vol. 19, No. 1 (Feb., 2004), pp. 175-187

Twitter Delicious Facebook Digg Stumbleupon Favorites More

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Best Hostgator Coupon Code