imagen 1Imagen 2Imagen 3

Teórico 10: Surfeando API´s y bases de datos de YouTube (Parte 2/3)

Taller II: Convertir datos en información: del xml al Excel

Por Sophie Alamo, Valentín Muro y Claudio Meschini

¿XML?

Ahora bien. Ahora nos toca hacer ese archivo en formato XML que nos dio la API un poco más amigable. Al principio no parece muy fácil, pero si miramos con atención y detenimiento, vamos a comprender cómo está organizada la información que necesitamos extraer. Pero, ¿qué es XML? Es un lenguaje utilizado para almacenar datos de forma estructurada en un archivo de texto (como la información de una hoja de cálculo) que sigue cierto estándar, haciéndolo útil para intercambiar información entre aplicaciones. ¿Otra vez? Decimos que es un lenguaje para la entrada de datos estructurada porque cualquiera que quiera escribir un archivo con este formato deberá seguir un método particular para escribir la información (data), pudiendo determinar cierta estructura y jerarquía; de esta manera generamos un archivo de texto que al estar estructurado de forma estándar, puede ser seguida por quien lo lee. Cualquiera de nosotros puede crear y customizar los tags de un XML. En XML se pueden definir un número ilimitado de tags. Este tipo de archivos puede ser leído por cualquier programa similar a un bloc de notas avanzado como Notepad++, SublimeText o TextMate. ¿Nos creen si les decimos que con algunos pasos podemos abrir este tipo de archivos con el tan conocido amigo Excel, del paquete Office? Sí, es posible, siempre y cuando que el archivo en XML esté “bien formado” o escrito con una correcta sintaxis. Es muy fácil, tenés que tener guardado el archivo en tu computadora, abrir Microsoft Excel y desde ese programa abrir el archivo. Tené en cuenta que deberás seleccionar “all files” o “todos los archivos” en la ventana que te habilita a abrir (para que no sólo te muestre los archivos en formato XML Spreadsheet (XMLSS), el formato tradicional de Excel).

imagen 1

Luego, te aparecerá una mini ventanita como esta: Imagen 2 Para poder operar con los datos, elegir “como un documento de sólo lectura”. Al dar ok, el archivo xml es “aplanado” o transformado en una hoja de cálculo de doble entrada compuesta por filas y columnas, más parecido a lo que todos conocemos. Los tags del XML (del tipo “título del video”, “url”, “cantidad de vistas”, “cantidad de comentarios”, etc.) aparecen en la primera fila como cabezales de cada columna y los datos se organizan a partir de esos cabezales y en cada fila. Como el archivo se abrió “solo-lectura”, para poder modificarlo y jugar con él deberás guardar tu archivo como un Excel tradicional, en un formato XML Spreadsheet (XMLSS). Bien, hasta acá todo marcha perfecto. ¿Qué puede pasar? Algo muy común con los demos (los programas de demostración como la API que les mostramos) pueden ocasionar algunos errores. En este caso, es muy posible que por algún error de sintaxis del archivo XML que les devuelve la API, Excel no les permita abrir el archivo. En ese caso, habrá que volver al XML y revisar la información que marca como errónea. Para realizar esto hace falta conocer un poco más sobre cómo se escribe en este formato. Por el momento, podemos ofrecerles ayuda de Valentín Muro y Claudio Meschini. Además, esta información no está “filtrada”, lo que quiere decir que muchas de las columnas que les aparecerán no les servirán para analizar ya que contendrán información redundante e inútiles para sus fines, por lo que deberán eliminar gran parte de ellas (si es que no tienen la posibilidad de hacerlo con un programa de forma automática). Otra herramienta para extraer información de YouTube es TubeKit. TubeKit lo que hace es llamar de forma automatizada a YouTube, pidiendo información de acuerdo a nuestra búsqueda. YouTube devuelve la información en formato XML y TubeKit la procesa, cargándola en una base de datos. Estos datos luego pueden exportarse para usar en Excel.

Excel

Como ya deben saber, Excel es un programa distribuido por Microsoft Office para hojas de cálculo. Normalmente se utiliza para tareas financieras o contables pero nosotros les proponemos un uso más relacionado con el procesamiento de los datos recolectados para poder realizar el análisis. Entendemos que no todos han utilizado Excel en profundidad y por tal motivo no conocen todas las herramientas y utilidades que pueden darle a este poderoso programa. Al mismo tiempo, deben entender que no podemos transcribir un tutorial total e integral para su uso. Por ese motivo, les acercamos tutoriales que han realizado otros. Hemos filtrado aquellas herramientas que pueden ser útiles para los proyectos que ustedes realizarán.

Este programa no tiene porqué convertirse en el mero depositario de sus bases de datos, sino que les puede ayudar a interpretarlos y aislar variables, y en muchos casos automatizar búsquedas que, de hacerlas manualmente o artesanalmente, podrían salvarles tiempo. Por este motivo, decidimos compartir un ejemplo de cómo trabajar con tablas dinámicas.

Tablas dinámicas

En el teórico mostramos un ejemplo sobre cómo trabajar con tablas dinámicas. Las tablas dinámicas te permiten resumir y analizar fácilmente grandes cantidades de información con tan sólo arrastrar y soltar las diferentes columnas en un cuadrado diseñado para tal fin (que contempla diferentes áreas). De esta manera, podrás aislar las variables que deseas analizar y te permitirá ver la información más claramente para luego visualizar. Imagen 3 Para que recuerden les dejamos el ejemplo [hacer click aquí para descargar el ejemplo] en el que utilizamos una base de datos provista por TubeKit, con determinada información sobre videos relacionados con Cromagnon , con un sintético paso a paso para su confección. A partir de formulamos la siguiente hipótesis: “La cantidad de comentarios de estos videos es proporcional a las vistas”, decidimos aislar las variables de identificación de video, comentarios y vistas. Asimismo decidimos ver esta información agrupada por año y mes, por lo que tuvimos que crear nuevas variables (Año y Mes) , a partir de usar funciones que nos suministra Excel. Recuerden que cada fila representa la información de un video. Paso 1: Dirigirse a Insertar/Tabla Dinámica. Excel nos preguntará qué rango de celdas utilizaremos podemos seleccionar toda la tabla y hacer clic en Aceptar. Este paso puede ser obviado si estamos “parados” en alguna celda que sea parte de los datos. Excel calculara automaticamente que celdas usar. Paso 2: En una hoja nueva en blanco, aparecerá un cuadro a la derecha que nos ayudará a determinar los campos de información para insertar en esta nueva hoja. Cada uno de estos campos se corresponde con una columna de nuestra base principal. Paso 3: Para completar la tabla dinámica debemos arrastrar los campos al área correspondiente (filtro de informe, etiquetas de columnas, etiquetas de filas y valores). Paso 4: Como señalamos al principio trasladamos al sector de “Filas” de la TD las variables de Año y Mes creadas por nosotros. Y agregamos al sector de “Valores” las variables con las cantidades de visitas y comentarios. Paso 5: Ahora podemos generar el gráfico usando el boton derecho e insertando el grafico XY Aquí encontrarán un tutorial muy detallado sobre tablas dinámicas http://exceltotal.com/tablas-dinamicas-en-excel/ . Los invitamos a leerlo para evacuar sus dudas o bien utilizando este tipo de tutoriales o contactándose con nosotros enviandonos un mail a sophiealamo@gmail.com; cmeschini@gmail.com; valenmuro@gmail.com.

[Ir a Taller III: la visualización de la información, Manyeyes, Wordle, Infogram y Voyant Tools]

Comentarios

  1. Federico

    Me encanta la forma en que este artículo explica el proceso de convertir datos de XML a Excel, XML es un lenguaje estructurado que permite intercambiar información entre aplicaciones, y con algunos pasos simples, podemos abrir archivos XML en Excel. Además, el uso de bases de datos como TubeKit facilita el procesamiento y análisis de los datos recolectados de YouTube. Excel es una herramienta poderosa para trabajar con datos, y aunque no podamos ofrecer un tutorial completo, existen muchos recursos útiles disponibles.

Deja un comentario