@PHDTHESIS{ 2021:1521145434, title = {Identificação de microproteínas codificadas por pequenas ORFs em mycolicibacterium smegmatis (mycobacterium smegmatis) por meio de análise proteogenômica}, year = {2021}, url = "http://tede2.pucrs.br/tede2/handle/tede/9772", abstract = "A tuberculose é uma doença infecciosa causada principalmente pelo Mycobacterium tuberculosis. Apesar da disponibilidade de tratamento e vacina, ela é responsável por milhões de mortes anualmente. Além disso, o surgimento de cepas resistentes aos medicamentos de primeira linha vem em constante crescimento. Portanto, o entendimento da biologia micobacteriana é essencial para o desenvolvimento de novas estratégias terapêuticas que reduzam a prevalência da tuberculose no mundo. Desde o primeiro sequenciamento de DNA procariótico, há mais de vinte e cinco anos, tornou-se possível desvendar os mistérios dos genomas bacterianos e compreender melhor a organização e a regulação de seus genes. Tradicionalmente, as pipelines de anotação incluem apenas em seu fluxo de trabalho ORFs (do inglês Open Reading Frame) com pelo menos 300 nucleotídeos ou 100 códons. As ORFs inferiores a 100 códons, conhecidas como pequenas ORFs (small ORFs - smORFs), são excluídas por um corte arbitrário, uma vez que um grande número de smORFs podem ser encontradas em qualquer genoma apenas ao acaso, com uma alta probabilidade de serem biologicamente sem sentido e não codificarem proteínas. Neste trabalho, investigamos o universo oculto de microproteínas codificadas por smORFS em Mycolicibacterium smegmatis mc²155 (Mycobacterium smegmatis), normalmente utilizado como modelo de M. tuberculosis devido às suas características não patogênicas e de rápido crescimento, por meio de uma abordagem proteogenômica. Combinando genômica, transcriptômica e proteômica, fomos capazes de identificar e anotar com precisão smORFs em M. smegmatis. Conseguimos aumentar a eficiência de identificação de microproteínas por meio de diferentes métodos de enriquecimento de proteínas de baixo peso molecular, pois elas, normalmente, são consideradas proteínas de baixa abundância em uma amostra biológica complexa. Identificamos 16 ORFs não anotadas, uma delas possuindo 23 parálogos espalhados por cópias do elemento de inserção IS1096, um conhecido transposon de M. smegmatis. Desse modo, descrevemos a existência de uma terceira ORF funcional do elemento IS1096, além das duas já conhecidas e caracterizadas. Nosso trabalho também nos permitiu estender a sequência de uma proteína previamente anotada e identificar a menor sequência codificadora já encontrada no genoma de M. smegmatis. Mostramos que o códon de início mais frequente nessas sequências é o GTG, seguido pelo ATG canônico e posteriormente pelos códons alternativos ATT e TTG. Muitas dessas novas ORFs possuem tanto sequências ortólogas anotadas quanto não anotadas em micobactérias e em outras bactérias próximas. Além disso, mostramos como a combinação de diferentes bancos de dados de proteomas podem excluir adequadamente proteínas conhecidas que, de outra forma, seriam consideradas novas. Esperamos que este estudo irá contribuir para a compreensão dos genomas e proteomas micobacterianos. Ainda, acreditamos que a descoberta dessas proteínas irá proporcionar novos estudos dedicados à elucidação de suas estruturas, funções e avaliação de essencialidade.", publisher = {Pontifícia Universidade Católica do Rio Grande do Sul}, scholl = {Programa de Pós-Graduação em Biologia Celular e Molecular}, note = {Escola de Ciências} }