Algunas estadísticas de Twitter son deslumbrantes, otras no tanto.

Algunas estadísticas de Twitter son deslumbrantes: El primer usuario de twitter que se dio de alta en el año 2011 ha sido @cuteroset44 a las 00:00:01 del 1 de enero,  y hace el número 232,693,336, y si miramos cuantas cuentas nuevas de twitter se han hecho en el 2010 sale una cifra de 131,826,841 (con un crecimiento de más del doble).

Ojo, "cuentas nuevas" no significa usuarios nuevos o únicos. Muy bien, pero cuántas son  utilizadas, y cuánto tuitean. Aquí van algunas estadísticas que no son tan deslumbrantes.
 

Para saberlo, me he estado entreteniendo en hacer un progama en el imacros para que me vaya extrayendo los datos de la api de twitter, pero debido a la cantidad ingente de datos a tratar, me he enfrentado a los siguientes problemas.
  1. ¿Que día  elijo? no creo que sea lo mismo un lunes que un domingo.
  2. ¿A qué hora recojo los datos? twitter es un servicio planetario que está en continuo funcionamiento. No es lo mismo recoger datos cuando en Asia sean las tres de la tarde, o las tres de la mañana en Europa.
Lo más exacto sería, recoger los datos de una semana completa para hacer las estadísticas, pero eso supondría tener que recopilar unos 450.000 datos de cuentas, y claro está, eso significa que tardaría bastante más de una semana en recogerlos, puesto que mi sistema de recolecta de datos apenas obtenía los datos de una cuenta cada segundo; en definitiva, una semana de obtención de cuentas nuevas en twitter me hubieran llevado en cinco semanas..
Al final, por falta de tiempo, he recogido los datos de unas 9000 cuentas entre el sábado 4 de diciembre y el martes 7 de diciembre de 2010. Estas capturas se hicieron entre 29 de diciembre y  el 31 de diciembre de 2010. No son estadísticas muy ortodoxas porque no soy un experto (admito sugerencias), pero creo podrán valer para hacernos una idea.

Espacio muestral: 9010 cuentas.
Para el que le pueda interesar aquí están los archivos con los datos en bruto de donde he sacado las estadísticas:
  1. Archivo SQL
  1. Hoja de Cáculo
  2. Programita imacros
  3. Saltar la restricción de 150 peticiones a twitter como máximo desde una IP, se puede hacer con programas como Hide my IP
  4. Los gráficos los he hecho con Create a Graph -Kids's Zone ;)
El proceso es muy sencillo y es el siguiente: a través de imacros pongo un contador en la siguiente llamada http://api.twitter.com/1/users/show/223510004.xml  siendo el número [223510004] la variable. Eso, devuelve una estructura xml que el imacros extrae y los deposita en un fichero. Luego mediante un "Replace" y en un editor de textos, transformo los datos en "inserts" a una base de datos... y voilá.


Estos son los por menores:

Horario de captura
Cuentas
inicio: Mon Dec 06 01:05:13 +0000 2010 fin:   Mon Dec 06 01:10:10 +0000 2010
SELECT * FROM `usuarios` WHERE `created_at` LIKE '% 01%' ORDER BY `usuarios`.`created_at` DESC
967
inicio: Sun Dec 05 03:29:23 +0000 2010  fin: Sun Dec 05 03:35:13 +0000 2010
SELECT * FROM `usuarios` WHERE `created_at` LIKE '% 03%' ORDER BY `usuarios`.`created_at` DESC
1,148
inicio: Mon Dec 06 09:30:10 +0000 2010 fin: Mon Dec 06 09:37:28 +0000 2010
SELECT * FROM `usuarios` WHERE `created_at` LIKE '% 09%' ORDER BY `usuarios`.`created_at` DESC
983
inicio: Tue Dec 07 11:36:21 +0000 2010 fin: Tue Dec 07 11:40:25 +0000 2010
SELECT * FROM `usuarios` WHERE `created_at` LIKE '% 11%' ORDER BY `usuarios`.`created_at` DESC
684
inicio: Sun Dec 05 12:25:50 +0000 2010 fin: Sun Dec 05 12:31:38 +0000 2010
SELECT * FROM `usuarios` WHERE `created_at` LIKE '% 12%' ORDER BY `usuarios`.`created_at` DESC
1,129
Mon Dec 06 16:00:16 +0000 2010 fin: Mon Dec 06 16:04:35 +0000 2010
SELECT * FROM `usuarios` WHERE `created_at` LIKE '% 16%' ORDER BY `usuarios`.`created_at` DESC
1,001
inicio: Sun Dec 05 18:35:57 +0000 2010 fin: Sun Dec 05 18:40:27 +0000 2010
SELECT * FROM `usuarios` WHERE `created_at` LIKE '% 18%' ORDER BY `usuarios`.`created_at` DESC
1,040
inicio: Sat Dec 04 20:34:40 +0000 2010 fin: Sat Dec 04 20:39:53 +0000 2010
SELECT * FROM `usuarios` WHERE `created_at` LIKE '%04 20%' ORDER BY `usuarios`.`created_at` DESC
1,165
inicio: Mon Dec 06 21:23:50 +0000 2010 fin: Mon Dec 06 21:28:57 +0000 2010
SELECT * FROM `usuarios` WHERE `created_at` LIKE '% 21%' ORDER BY `usuarios`.`created_at` DESC
893
Total :                 9,010
Ahora que tengo los datos, vamos a hacer preguntas:

¿Cuántas cuentas se  abren y al cabo de tres semanas ni siquiera a puesto  un tweet ?
SELECT * FROM `usuarios` WHERE `statuses_count` =0                                       Resp:   56% (5,090)
                                                                                                                                    y una vez...        10% (945)
>50...        5% (478)

¿Cuántas cuentas se  abren y al cabo de tres semanas ni siquiera tienen un followers ?
SELECT * FROM `usuarios` WHERE `followers_count` =0                                Resp:         64% (5,765)
                                                                                                                y que tengan uno..               13% (1,,208)
                                                                                                               y que tengan más de 20 ..       4%   (339)

¿Cuántas cuentas se  abren y al cabo de tres semanas ni siquiera han hecho un following ?
SELECT * FROM `usuarios` WHERE `friends_count` =0                                Resp:         36% (3,220)
                                                                                                                y que tengan uno...              19% (1,737)
                                                                                                                y que tengan más de 20...        11% (980)

¿Cuántas cuentas se  abren y al cabo de tres semanas no se han cambiado la foto por defecto ?
SELECT * FROM `usuarios`WHERE `profile_image_url` LIKE '%default%'                 Resp:         66% (5,906)


Esta entrada sólo tiene el objeto de ser divulgativa, y espero que la entendáis así. Los datos que aporto están a disposición de todo el mundo y son públicos. Me hubiera gustado hacer la estadística más exacta, pero creo que con esta aproximación es suficiente.




0 comentarios:

Copyright © 2013. BloggerSpice.com - All Rights Reserved
Customized by: MohammadFazle Rabbi | Powered by: BS
Designed by: Tilabs