JornadasFisyMatAdnLas Jornadas FISYMAT sobre “Sistemas Complejos y Teoria de la Información” organizadas por los Profs. Juan Carlos Angulo y Jesus Sanchez-Dehesa, que contemplan cuatro conferencias, continúan el proximo Jueves dia 14 de marzo con las dos conferencias siguientes a cargo de los Profs. Carpena y Bernaola, que se describen a continuación:

Detección de palabras relevantes en textos literarios y en secuencias de ADN.

Conferenciante: Dr. Pedro J. Carpena (Universidad de Málaga)
Fecha: 14 de Marzo a las 11h
Lugar: Sala de seminarios del Departamento de Física Atómica, Molecular y Nuclear. Tercera Planta de Físicas.  Facultad de Ciencias.


Resumen: Los textos y el ADN pueden verse como secuencias simbólicas formadas por una serie de caracteres (las letras del alfabeto, en el caso de los textos, y los 4 nucleótidos, A,C,G,T en el ADN). En el caso de los textos, las palabras formadas con las letras del alfabeto y sus combinaciones transmiten la información. Sin embargo, no todas las palabras de un texto son igual de relevantes para dicho texto, sino sólo un pequeño conjunto de ellas (keywords). En esta charla, mostramos que las palabras relevantes en un texto interaccionan fuertemente entre sí, mientras que las no relevantes no lo hacen. Usando técnicas aplicadas en el análisis de las interacciones entre niveles energéticos de sólidos desordenados, se puede determinar la fortaleza de las interacciones entre las palabras, y por tanto su relevancia en el texto considerado. Mostraremos resultados que indican que estas técnicas funcionan especialmente bien a la hora de detectar palabras clave en textos de los que no se necesita ninguna información a priori, y que además el método funciona también en textos cortos, con las implicaciones derivadas en el análisis automático de artículos científicos, búsquedas en Internet, etc. Pero además, las mismas técnicas pueden aplicarse al análisis de secuencias de ADN, puesto que consisten en series muy largas de símbolos. Sin embargo, descubrimientos recientes sugieren que la mayoría de la información contenida en el ADN es desconocida y no se encuentra en los genes. Ni siquiera se conocen las posibles ‘palabras’ o vocabulario usado para escribir la información en el ADN ya que no hay ‘espacios’ entre las mismas, como ocurre en el lenguaje ordinario. Si se aplican nuestras técnicas a secuencias de ADN, se puede obtener un conjunto de ‘palabras’ de ADN de distintas longitudes que experimentan fuertes interacciones entre ellas, al igual que en los textos. Recientemente, hemos demostrado que estas ‘palabras’ están ligadas a información biológica, y que por tanto nuestras técnicas pueden ser un primer paso para encontrar el ‘vocabulario’ del genoma.

Estudio de la estructura composicional a gran escala del genoma mediante algoritmos de segmentación.

Conferenciante: Pedro A. Bernaola Galván (Universidad de Málaga)
Fecha: 14 de Marzo a las 12h.
Lugar: Sala de seminarios del Departamento de Física Atómica, Molecular y Nuclear. Tercera Planta de Físicas.  Facultad de Ciencias.
Resumen: 
El problema de la búsqueda de “puntos de cambio” (change points) aparece en el análisis de todo tipo de series temporales. Puede ser interesante localizar el momento en el que se invierte la tendencia de crecimiento o decrecimiento de un determinado valor bursátil, reconocer períodos de sequía a partir de los datos de precipitaciones de un determinado lugar o identificar diferentes regímenes de actividad cardiaca por poner algunos ejemplos. En todos estos casos el problema consiste en localizar el momento en el que se produce un cambio significativo en alguna propiedad de los datos analizados: el incremento del valor bursátil pasa de ser positivo a negativo o viceversa, el valor medio de las precipitaciones cae por debajo de un determinado valor umbral o se produce un cambio significativo en el valor medio del intervalo entre latidos del corazón. Haciendo uso de funcionales de Teoría de la Información, este planteamiento también se puede aplicar a series simbólicas como por ejemplo, las secuencias de ADN. De hecho la localización de dominios composicionales, i.e. regiones con una mayor o menor concentración de un determinado tipo de nucleótidos, ha resultado ser de gran ayuda en la identificación de regiones funcionales, estudio de la evolución de elementos repetidos, búsqueda de transferencia horizontal de genes entre especies, etc.
Por otra parte, cuando las secuencias objeto de análisis presentan correlaciones fractales de largo alcance, como ocurre en concreto con el ADN, la presencia de dichas correlaciones introduce en la secuencia una heterogeneidad debida a la propia naturaleza fractal de la secuencia y que no se debe a la presencia de segmentos reales. Como resultado aparecen segmentos espúreos que pueden enmascarar a los que realmente aparecen como resultado del proceso que da lugar a la secuencia, i.e. mecanismo evolutivo responsable de cambios en la composición de la secuencia de ADN.
El método de segmentación que aquí proponemos tiene en cuenta el efecto de las correlaciones sobre la estructura composicional de la secuencia de ADN y ha permitido recientemente revelar la presencia de estructuras composicionales de gran escala presentes en el Genoma Humano y desconocidas hasta el momento.

Organiza: Programa de Doctorado de FISYMAT. Grupo de Física Atómica y Molecular del Dpto. de Física Atómica, Molecular y Nuclear y del Instituto Carlos I de Física teórica y Computacional.

Escribir un comentario


La programación y mantenimiento de las páginas web albergadas en este sitio se han realizado con Software Libre por Ruvic. Soluciones Informáticas

Logo de Ruvic. Soluciones informáticas

The programming and maintenance of web pages hosted on this site were made with Free Software by Ruvic. Soluciones Informáticas

Logo de Ruvic. Soluciones informáticas