論文メモ

論文の概要を中心に読んだことを簡単にメモしています.読む論文にあたりを付ける程度のメモです.

メモ:Arbitrary-Order Proximity Preserved Network Embedding

  • 対象:network embedding
    • high-order proximity は構造情報の維持に効果的
  • 従来手法の問題点
    • 固定次数の proximity しか扱えない
    • 精度と性能を同時に担保できない
  • 提案手法:AROPE (arbitrary-order proximity preserved embedding)
    • SVD に基づく手法
    • eigen-decomposition reweighting theorem の証明
      • 異なる次数の類似度間の固有の関係を明らかにした
  • 理論的解析により以下を保証
    • 異なる次数の類似度空間の移動 (shift) にかかるコストが低い
    • 次数が決まったときに,大域的最適解となる
    • 計算複雑性がネットワークサイズに線形

メモ:On the Generative Discovery of Structured Medical Knowledge

  • 対象:構造化された医療データ構築
  • 課題:データの準備や人手によるアノテーションの手間が多い
  • 問題:relational medical entity pair discovery problem
  • 提案手法:Conditional Relationship Variational Autoencoder
    • generative model
    • 関連する medical entity ペアを抽出
    • 少ないデータからペアの抽出が可能
      • discriminative model:洗練された学習データが必要
    • 深層学習を自動特徴抽出器として利用
  • 効能
    • 未知のペアを生成可能
    • 特定の medical relationship に則ったペアを抽出可能

メモ:HiExpan: Task-Guided Taxonomy Construction by Hierarchical Tree Expansion

  • 対象:taxonomy の構築
    • 手動は手間がかかりすぎる
    • 知識を利用するアプリケーションで重要な役割
  • 既存手法は is-a 関係で示される上位語に注目したものが多い
    • この制限は実用性の観点でよくない
  • 提案手法:HiExpan
    • task-guided taxonomy 
      • domain-specific な taxonomy を与えられた部分的な taxonomy から構築
    • 拡張に基づく taxonomy 構築フレームワーク
      • 文書からキーワードリストを自動で生成
      • 徐々に taxonomy を拡張
      • weakly-supervised relation extraction を使って拡張する要素を決定

メモ:FAHES: A Robust Disguised Missing Values Detector

  • 欠損値は統計検定や仮説検定に悪影響を与える
  • 二種類の欠損値
    • 値が存在しない (NULL)
    • 偽物の値が存在 (DMV; disguised missing value)
      • 例:電話番号が1111111111
      • 例:教育歴が hoge大学
  • DMVの発見は難しい
    • DMVの与え方に標準形 (standard) がない
  • 提案手法:FAHES
    • DMV を2つの方向から検出
      • 1. DMVを判別可能な外れ値として検出
        • カテゴリ値:統語論的な外れ値検出
        • 数値:密度に基づく外れ値検出
      • 2. DMVを判別可能な正常値として検出
        • missing-completely-at-random モデル
        • missing-at-random モデル
    • アンサンブルモデルとしてモデル化することで堅牢に

メモ:EvoGraph: An Effective and Efficient Graph Upscaling Method for Preserving Graph Properties

  • 人工グラフデータの生成が難しい
  • upscaling 手法 (e.g., Gscaler)
    • グラフの重要な特性を維持できない
    • 計算量が非常に高い
  • 提案手法:EvoGraph
    • グラフ特性を維持したまま upscaling する手法
    • preferential attachment mechanism
      • 出次数の分布に応じた確率でエッジを割り当てる方法

メモ:xStream: Outlier Dete‘x’ion in Feature-Evolving Data Streams

  • ストリームデータに対する外れ値検出
    • data points の属性が変化
    • 性空間が拡大 (evolving)
  • 提案手法:xStream
    • 定数空間かつ定数時間オーダーのアルゴリズム
    • 複数の観点での外れ値度合い計算
    • 距離を維持した射影を用いて高次元データを扱える
    • データ更新に伴う non-stationarity を扱える
    • 汎用性:静的なデータにも row-stream にも適用可能

メモ:Context-aware Academic Collaborator Recommendation

  • 対象:共同研究者推薦
  • 従来手法:研究トピックなどのコンテキストを無視
  • 提案手法:CACR (Context-aware Collaborator Recommendation)
    • CEE (Collaborative Entity Embedding)
      • 研究者と研究トピックを共起関係に基づいて埋め込み
    • HFM (Hierarchical Factorization Model)
      • 研究者の活発度 (activeness) と保守度 (conservativeness) を抽出
      • 共同研究したことない人と研究したいかどうかを区別
  • 実験:ArnetMinerのデータを使用